1 | // Simd x86 specific implementations -*- C++ -*-
|
---|
2 |
|
---|
3 | // Copyright (C) 2020-2021 Free Software Foundation, Inc.
|
---|
4 | //
|
---|
5 | // This file is part of the GNU ISO C++ Library. This library is free
|
---|
6 | // software; you can redistribute it and/or modify it under the
|
---|
7 | // terms of the GNU General Public License as published by the
|
---|
8 | // Free Software Foundation; either version 3, or (at your option)
|
---|
9 | // any later version.
|
---|
10 |
|
---|
11 | // This library is distributed in the hope that it will be useful,
|
---|
12 | // but WITHOUT ANY WARRANTY; without even the implied warranty of
|
---|
13 | // MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
|
---|
14 | // GNU General Public License for more details.
|
---|
15 |
|
---|
16 | // Under Section 7 of GPL version 3, you are granted additional
|
---|
17 | // permissions described in the GCC Runtime Library Exception, version
|
---|
18 | // 3.1, as published by the Free Software Foundation.
|
---|
19 |
|
---|
20 | // You should have received a copy of the GNU General Public License and
|
---|
21 | // a copy of the GCC Runtime Library Exception along with this program;
|
---|
22 | // see the files COPYING3 and COPYING.RUNTIME respectively. If not, see
|
---|
23 | // <http://www.gnu.org/licenses/>.
|
---|
24 |
|
---|
25 | #ifndef _GLIBCXX_EXPERIMENTAL_SIMD_X86_H_
|
---|
26 | #define _GLIBCXX_EXPERIMENTAL_SIMD_X86_H_
|
---|
27 |
|
---|
28 | #if __cplusplus >= 201703L
|
---|
29 |
|
---|
30 | #if !_GLIBCXX_SIMD_X86INTRIN
|
---|
31 | #error \
|
---|
32 | "simd_x86.h may only be included when MMX or SSE on x86(_64) are available"
|
---|
33 | #endif
|
---|
34 |
|
---|
35 | _GLIBCXX_SIMD_BEGIN_NAMESPACE
|
---|
36 |
|
---|
37 | // __to_masktype {{{
|
---|
38 | // Given <T, N> return <__int_for_sizeof_t<T>, N>. For _SimdWrapper and
|
---|
39 | // __vector_type_t.
|
---|
40 | template <typename _Tp, size_t _Np>
|
---|
41 | _GLIBCXX_SIMD_INTRINSIC constexpr _SimdWrapper<__int_for_sizeof_t<_Tp>, _Np>
|
---|
42 | __to_masktype(_SimdWrapper<_Tp, _Np> __x)
|
---|
43 | {
|
---|
44 | return reinterpret_cast<__vector_type_t<__int_for_sizeof_t<_Tp>, _Np>>(
|
---|
45 | __x._M_data);
|
---|
46 | }
|
---|
47 |
|
---|
48 | template <typename _TV,
|
---|
49 | typename _TVT
|
---|
50 | = enable_if_t<__is_vector_type_v<_TV>, _VectorTraits<_TV>>,
|
---|
51 | typename _Up = __int_for_sizeof_t<typename _TVT::value_type>>
|
---|
52 | _GLIBCXX_SIMD_INTRINSIC constexpr __vector_type_t<_Up, _TVT::_S_full_size>
|
---|
53 | __to_masktype(_TV __x)
|
---|
54 | { return reinterpret_cast<__vector_type_t<_Up, _TVT::_S_full_size>>(__x); }
|
---|
55 |
|
---|
56 | // }}}
|
---|
57 | // __interleave128_lo {{{
|
---|
58 | template <typename _Ap, typename _Bp, typename _Tp = common_type_t<_Ap, _Bp>,
|
---|
59 | typename _Trait = _VectorTraits<_Tp>>
|
---|
60 | _GLIBCXX_SIMD_INTRINSIC constexpr _Tp
|
---|
61 | __interleave128_lo(const _Ap& __av, const _Bp& __bv)
|
---|
62 | {
|
---|
63 | const _Tp __a(__av);
|
---|
64 | const _Tp __b(__bv);
|
---|
65 | if constexpr (sizeof(_Tp) == 16 && _Trait::_S_full_size == 2)
|
---|
66 | return _Tp{__a[0], __b[0]};
|
---|
67 | else if constexpr (sizeof(_Tp) == 16 && _Trait::_S_full_size == 4)
|
---|
68 | return _Tp{__a[0], __b[0], __a[1], __b[1]};
|
---|
69 | else if constexpr (sizeof(_Tp) == 16 && _Trait::_S_full_size == 8)
|
---|
70 | return _Tp{__a[0], __b[0], __a[1], __b[1],
|
---|
71 | __a[2], __b[2], __a[3], __b[3]};
|
---|
72 | else if constexpr (sizeof(_Tp) == 16 && _Trait::_S_full_size == 16)
|
---|
73 | return _Tp{__a[0], __b[0], __a[1], __b[1], __a[2], __b[2],
|
---|
74 | __a[3], __b[3], __a[4], __b[4], __a[5], __b[5],
|
---|
75 | __a[6], __b[6], __a[7], __b[7]};
|
---|
76 | else if constexpr (sizeof(_Tp) == 32 && _Trait::_S_full_size == 4)
|
---|
77 | return _Tp{__a[0], __b[0], __a[2], __b[2]};
|
---|
78 | else if constexpr (sizeof(_Tp) == 32 && _Trait::_S_full_size == 8)
|
---|
79 | return _Tp{__a[0], __b[0], __a[1], __b[1],
|
---|
80 | __a[4], __b[4], __a[5], __b[5]};
|
---|
81 | else if constexpr (sizeof(_Tp) == 32 && _Trait::_S_full_size == 16)
|
---|
82 | return _Tp{__a[0], __b[0], __a[1], __b[1], __a[2], __b[2],
|
---|
83 | __a[3], __b[3], __a[8], __b[8], __a[9], __b[9],
|
---|
84 | __a[10], __b[10], __a[11], __b[11]};
|
---|
85 | else if constexpr (sizeof(_Tp) == 32 && _Trait::_S_full_size == 32)
|
---|
86 | return _Tp{__a[0], __b[0], __a[1], __b[1], __a[2], __b[2], __a[3],
|
---|
87 | __b[3], __a[4], __b[4], __a[5], __b[5], __a[6], __b[6],
|
---|
88 | __a[7], __b[7], __a[16], __b[16], __a[17], __b[17], __a[18],
|
---|
89 | __b[18], __a[19], __b[19], __a[20], __b[20], __a[21], __b[21],
|
---|
90 | __a[22], __b[22], __a[23], __b[23]};
|
---|
91 | else if constexpr (sizeof(_Tp) == 64 && _Trait::_S_full_size == 8)
|
---|
92 | return _Tp{__a[0], __b[0], __a[2], __b[2],
|
---|
93 | __a[4], __b[4], __a[6], __b[6]};
|
---|
94 | else if constexpr (sizeof(_Tp) == 64 && _Trait::_S_full_size == 16)
|
---|
95 | return _Tp{__a[0], __b[0], __a[1], __b[1], __a[4], __b[4],
|
---|
96 | __a[5], __b[5], __a[8], __b[8], __a[9], __b[9],
|
---|
97 | __a[12], __b[12], __a[13], __b[13]};
|
---|
98 | else if constexpr (sizeof(_Tp) == 64 && _Trait::_S_full_size == 32)
|
---|
99 | return _Tp{__a[0], __b[0], __a[1], __b[1], __a[2], __b[2], __a[3],
|
---|
100 | __b[3], __a[8], __b[8], __a[9], __b[9], __a[10], __b[10],
|
---|
101 | __a[11], __b[11], __a[16], __b[16], __a[17], __b[17], __a[18],
|
---|
102 | __b[18], __a[19], __b[19], __a[24], __b[24], __a[25], __b[25],
|
---|
103 | __a[26], __b[26], __a[27], __b[27]};
|
---|
104 | else if constexpr (sizeof(_Tp) == 64 && _Trait::_S_full_size == 64)
|
---|
105 | return _Tp{__a[0], __b[0], __a[1], __b[1], __a[2], __b[2], __a[3],
|
---|
106 | __b[3], __a[4], __b[4], __a[5], __b[5], __a[6], __b[6],
|
---|
107 | __a[7], __b[7], __a[16], __b[16], __a[17], __b[17], __a[18],
|
---|
108 | __b[18], __a[19], __b[19], __a[20], __b[20], __a[21], __b[21],
|
---|
109 | __a[22], __b[22], __a[23], __b[23], __a[32], __b[32], __a[33],
|
---|
110 | __b[33], __a[34], __b[34], __a[35], __b[35], __a[36], __b[36],
|
---|
111 | __a[37], __b[37], __a[38], __b[38], __a[39], __b[39], __a[48],
|
---|
112 | __b[48], __a[49], __b[49], __a[50], __b[50], __a[51], __b[51],
|
---|
113 | __a[52], __b[52], __a[53], __b[53], __a[54], __b[54], __a[55],
|
---|
114 | __b[55]};
|
---|
115 | else
|
---|
116 | __assert_unreachable<_Tp>();
|
---|
117 | }
|
---|
118 |
|
---|
119 | // }}}
|
---|
120 | // __is_zero{{{
|
---|
121 | template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
|
---|
122 | _GLIBCXX_SIMD_INTRINSIC constexpr bool
|
---|
123 | __is_zero(_Tp __a)
|
---|
124 | {
|
---|
125 | if (!__builtin_is_constant_evaluated())
|
---|
126 | {
|
---|
127 | if constexpr (__have_avx)
|
---|
128 | {
|
---|
129 | if constexpr (_TVT::template _S_is<float, 8>)
|
---|
130 | return _mm256_testz_ps(__a, __a);
|
---|
131 | else if constexpr (_TVT::template _S_is<double, 4>)
|
---|
132 | return _mm256_testz_pd(__a, __a);
|
---|
133 | else if constexpr (sizeof(_Tp) == 32)
|
---|
134 | return _mm256_testz_si256(__to_intrin(__a), __to_intrin(__a));
|
---|
135 | else if constexpr (_TVT::template _S_is<float>)
|
---|
136 | return _mm_testz_ps(__to_intrin(__a), __to_intrin(__a));
|
---|
137 | else if constexpr (_TVT::template _S_is<double, 2>)
|
---|
138 | return _mm_testz_pd(__a, __a);
|
---|
139 | else
|
---|
140 | return _mm_testz_si128(__to_intrin(__a), __to_intrin(__a));
|
---|
141 | }
|
---|
142 | else if constexpr (__have_sse4_1)
|
---|
143 | return _mm_testz_si128(__intrin_bitcast<__m128i>(__a),
|
---|
144 | __intrin_bitcast<__m128i>(__a));
|
---|
145 | }
|
---|
146 | else if constexpr (sizeof(_Tp) <= 8)
|
---|
147 | return reinterpret_cast<__int_for_sizeof_t<_Tp>>(__a) == 0;
|
---|
148 | else
|
---|
149 | {
|
---|
150 | const auto __b = __vector_bitcast<_LLong>(__a);
|
---|
151 | if constexpr (sizeof(__b) == 16)
|
---|
152 | return (__b[0] | __b[1]) == 0;
|
---|
153 | else if constexpr (sizeof(__b) == 32)
|
---|
154 | return __is_zero(__lo128(__b) | __hi128(__b));
|
---|
155 | else if constexpr (sizeof(__b) == 64)
|
---|
156 | return __is_zero(__lo256(__b) | __hi256(__b));
|
---|
157 | else
|
---|
158 | __assert_unreachable<_Tp>();
|
---|
159 | }
|
---|
160 | }
|
---|
161 |
|
---|
162 | // }}}
|
---|
163 | // __movemask{{{
|
---|
164 | template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
|
---|
165 | _GLIBCXX_SIMD_INTRINSIC _GLIBCXX_CONST int
|
---|
166 | __movemask(_Tp __a)
|
---|
167 | {
|
---|
168 | if constexpr (sizeof(_Tp) == 32)
|
---|
169 | {
|
---|
170 | if constexpr (_TVT::template _S_is<float>)
|
---|
171 | return _mm256_movemask_ps(__to_intrin(__a));
|
---|
172 | else if constexpr (_TVT::template _S_is<double>)
|
---|
173 | return _mm256_movemask_pd(__to_intrin(__a));
|
---|
174 | else
|
---|
175 | return _mm256_movemask_epi8(__to_intrin(__a));
|
---|
176 | }
|
---|
177 | else if constexpr (_TVT::template _S_is<float>)
|
---|
178 | return _mm_movemask_ps(__to_intrin(__a));
|
---|
179 | else if constexpr (_TVT::template _S_is<double>)
|
---|
180 | return _mm_movemask_pd(__to_intrin(__a));
|
---|
181 | else
|
---|
182 | return _mm_movemask_epi8(__to_intrin(__a));
|
---|
183 | }
|
---|
184 |
|
---|
185 | // }}}
|
---|
186 | // __testz{{{
|
---|
187 | template <typename _TI, typename _TVT = _VectorTraits<_TI>>
|
---|
188 | _GLIBCXX_SIMD_INTRINSIC _GLIBCXX_CONST constexpr int
|
---|
189 | __testz(_TI __a, _TI __b)
|
---|
190 | {
|
---|
191 | static_assert(is_same_v<_TI, __intrinsic_type_t<typename _TVT::value_type,
|
---|
192 | _TVT::_S_full_size>>);
|
---|
193 | if (!__builtin_is_constant_evaluated())
|
---|
194 | {
|
---|
195 | if constexpr (sizeof(_TI) == 32)
|
---|
196 | {
|
---|
197 | if constexpr (_TVT::template _S_is<float>)
|
---|
198 | return _mm256_testz_ps(__to_intrin(__a), __to_intrin(__b));
|
---|
199 | else if constexpr (_TVT::template _S_is<double>)
|
---|
200 | return _mm256_testz_pd(__to_intrin(__a), __to_intrin(__b));
|
---|
201 | else
|
---|
202 | return _mm256_testz_si256(__to_intrin(__a), __to_intrin(__b));
|
---|
203 | }
|
---|
204 | else if constexpr (_TVT::template _S_is<float> && __have_avx)
|
---|
205 | return _mm_testz_ps(__to_intrin(__a), __to_intrin(__b));
|
---|
206 | else if constexpr (_TVT::template _S_is<double> && __have_avx)
|
---|
207 | return _mm_testz_pd(__to_intrin(__a), __to_intrin(__b));
|
---|
208 | else if constexpr (__have_sse4_1)
|
---|
209 | return _mm_testz_si128(__intrin_bitcast<__m128i>(__to_intrin(__a)),
|
---|
210 | __intrin_bitcast<__m128i>(__to_intrin(__b)));
|
---|
211 | else
|
---|
212 | return __movemask(0 == __and(__a, __b)) != 0;
|
---|
213 | }
|
---|
214 | else
|
---|
215 | return __is_zero(__and(__a, __b));
|
---|
216 | }
|
---|
217 |
|
---|
218 | // }}}
|
---|
219 | // __testc{{{
|
---|
220 | // requires SSE4.1 or above
|
---|
221 | template <typename _TI, typename _TVT = _VectorTraits<_TI>>
|
---|
222 | _GLIBCXX_SIMD_INTRINSIC _GLIBCXX_CONST constexpr int
|
---|
223 | __testc(_TI __a, _TI __b)
|
---|
224 | {
|
---|
225 | static_assert(is_same_v<_TI, __intrinsic_type_t<typename _TVT::value_type,
|
---|
226 | _TVT::_S_full_size>>);
|
---|
227 | if (__builtin_is_constant_evaluated())
|
---|
228 | return __is_zero(__andnot(__a, __b));
|
---|
229 |
|
---|
230 | if constexpr (sizeof(_TI) == 32)
|
---|
231 | {
|
---|
232 | if constexpr (_TVT::template _S_is<float>)
|
---|
233 | return _mm256_testc_ps(__a, __b);
|
---|
234 | else if constexpr (_TVT::template _S_is<double>)
|
---|
235 | return _mm256_testc_pd(__a, __b);
|
---|
236 | else
|
---|
237 | return _mm256_testc_si256(__to_intrin(__a), __to_intrin(__b));
|
---|
238 | }
|
---|
239 | else if constexpr (_TVT::template _S_is<float> && __have_avx)
|
---|
240 | return _mm_testc_ps(__to_intrin(__a), __to_intrin(__b));
|
---|
241 | else if constexpr (_TVT::template _S_is<double> && __have_avx)
|
---|
242 | return _mm_testc_pd(__to_intrin(__a), __to_intrin(__b));
|
---|
243 | else
|
---|
244 | {
|
---|
245 | static_assert(is_same_v<_TI, _TI> && __have_sse4_1);
|
---|
246 | return _mm_testc_si128(__intrin_bitcast<__m128i>(__to_intrin(__a)),
|
---|
247 | __intrin_bitcast<__m128i>(__to_intrin(__b)));
|
---|
248 | }
|
---|
249 | }
|
---|
250 |
|
---|
251 | // }}}
|
---|
252 | // __testnzc{{{
|
---|
253 | template <typename _TI, typename _TVT = _VectorTraits<_TI>>
|
---|
254 | _GLIBCXX_SIMD_INTRINSIC _GLIBCXX_CONST constexpr int
|
---|
255 | __testnzc(_TI __a, _TI __b)
|
---|
256 | {
|
---|
257 | static_assert(is_same_v<_TI, __intrinsic_type_t<typename _TVT::value_type,
|
---|
258 | _TVT::_S_full_size>>);
|
---|
259 | if (!__builtin_is_constant_evaluated())
|
---|
260 | {
|
---|
261 | if constexpr (sizeof(_TI) == 32)
|
---|
262 | {
|
---|
263 | if constexpr (_TVT::template _S_is<float>)
|
---|
264 | return _mm256_testnzc_ps(__a, __b);
|
---|
265 | else if constexpr (_TVT::template _S_is<double>)
|
---|
266 | return _mm256_testnzc_pd(__a, __b);
|
---|
267 | else
|
---|
268 | return _mm256_testnzc_si256(__to_intrin(__a), __to_intrin(__b));
|
---|
269 | }
|
---|
270 | else if constexpr (_TVT::template _S_is<float> && __have_avx)
|
---|
271 | return _mm_testnzc_ps(__to_intrin(__a), __to_intrin(__b));
|
---|
272 | else if constexpr (_TVT::template _S_is<double> && __have_avx)
|
---|
273 | return _mm_testnzc_pd(__to_intrin(__a), __to_intrin(__b));
|
---|
274 | else if constexpr (__have_sse4_1)
|
---|
275 | return _mm_testnzc_si128(__intrin_bitcast<__m128i>(__to_intrin(__a)),
|
---|
276 | __intrin_bitcast<__m128i>(__to_intrin(__b)));
|
---|
277 | else
|
---|
278 | return __movemask(0 == __and(__a, __b)) == 0
|
---|
279 | && __movemask(0 == __andnot(__a, __b)) == 0;
|
---|
280 | }
|
---|
281 | else
|
---|
282 | return !(__is_zero(__and(__a, __b)) || __is_zero(__andnot(__a, __b)));
|
---|
283 | }
|
---|
284 |
|
---|
285 | // }}}
|
---|
286 | // __xzyw{{{
|
---|
287 | // shuffles the complete vector, swapping the inner two quarters. Often useful
|
---|
288 | // for AVX for fixing up a shuffle result.
|
---|
289 | template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
|
---|
290 | _GLIBCXX_SIMD_INTRINSIC _Tp
|
---|
291 | __xzyw(_Tp __a)
|
---|
292 | {
|
---|
293 | if constexpr (sizeof(_Tp) == 16)
|
---|
294 | {
|
---|
295 | const auto __x = __vector_bitcast<conditional_t<
|
---|
296 | is_floating_point_v<typename _TVT::value_type>, float, int>>(__a);
|
---|
297 | return reinterpret_cast<_Tp>(
|
---|
298 | decltype(__x){__x[0], __x[2], __x[1], __x[3]});
|
---|
299 | }
|
---|
300 | else if constexpr (sizeof(_Tp) == 32)
|
---|
301 | {
|
---|
302 | const auto __x = __vector_bitcast<conditional_t<
|
---|
303 | is_floating_point_v<typename _TVT::value_type>, double, _LLong>>(__a);
|
---|
304 | return reinterpret_cast<_Tp>(
|
---|
305 | decltype(__x){__x[0], __x[2], __x[1], __x[3]});
|
---|
306 | }
|
---|
307 | else if constexpr (sizeof(_Tp) == 64)
|
---|
308 | {
|
---|
309 | const auto __x = __vector_bitcast<conditional_t<
|
---|
310 | is_floating_point_v<typename _TVT::value_type>, double, _LLong>>(__a);
|
---|
311 | return reinterpret_cast<_Tp>(decltype(__x){__x[0], __x[1], __x[4],
|
---|
312 | __x[5], __x[2], __x[3],
|
---|
313 | __x[6], __x[7]});
|
---|
314 | }
|
---|
315 | else
|
---|
316 | __assert_unreachable<_Tp>();
|
---|
317 | }
|
---|
318 |
|
---|
319 | // }}}
|
---|
320 | // __maskload_epi32{{{
|
---|
321 | template <typename _Tp>
|
---|
322 | _GLIBCXX_SIMD_INTRINSIC auto
|
---|
323 | __maskload_epi32(const int* __ptr, _Tp __k)
|
---|
324 | {
|
---|
325 | if constexpr (sizeof(__k) == 16)
|
---|
326 | return _mm_maskload_epi32(__ptr, __k);
|
---|
327 | else
|
---|
328 | return _mm256_maskload_epi32(__ptr, __k);
|
---|
329 | }
|
---|
330 |
|
---|
331 | // }}}
|
---|
332 | // __maskload_epi64{{{
|
---|
333 | template <typename _Tp>
|
---|
334 | _GLIBCXX_SIMD_INTRINSIC auto
|
---|
335 | __maskload_epi64(const _LLong* __ptr, _Tp __k)
|
---|
336 | {
|
---|
337 | if constexpr (sizeof(__k) == 16)
|
---|
338 | return _mm_maskload_epi64(__ptr, __k);
|
---|
339 | else
|
---|
340 | return _mm256_maskload_epi64(__ptr, __k);
|
---|
341 | }
|
---|
342 |
|
---|
343 | // }}}
|
---|
344 | // __maskload_ps{{{
|
---|
345 | template <typename _Tp>
|
---|
346 | _GLIBCXX_SIMD_INTRINSIC auto
|
---|
347 | __maskload_ps(const float* __ptr, _Tp __k)
|
---|
348 | {
|
---|
349 | if constexpr (sizeof(__k) == 16)
|
---|
350 | return _mm_maskload_ps(__ptr, __k);
|
---|
351 | else
|
---|
352 | return _mm256_maskload_ps(__ptr, __k);
|
---|
353 | }
|
---|
354 |
|
---|
355 | // }}}
|
---|
356 | // __maskload_pd{{{
|
---|
357 | template <typename _Tp>
|
---|
358 | _GLIBCXX_SIMD_INTRINSIC auto
|
---|
359 | __maskload_pd(const double* __ptr, _Tp __k)
|
---|
360 | {
|
---|
361 | if constexpr (sizeof(__k) == 16)
|
---|
362 | return _mm_maskload_pd(__ptr, __k);
|
---|
363 | else
|
---|
364 | return _mm256_maskload_pd(__ptr, __k);
|
---|
365 | }
|
---|
366 |
|
---|
367 | // }}}
|
---|
368 |
|
---|
369 | #ifdef _GLIBCXX_SIMD_WORKAROUND_PR85048
|
---|
370 | #include "simd_x86_conversions.h"
|
---|
371 | #endif
|
---|
372 |
|
---|
373 | // ISA & type detection {{{
|
---|
374 | template <typename _Tp, size_t _Np>
|
---|
375 | constexpr bool
|
---|
376 | __is_sse_ps()
|
---|
377 | {
|
---|
378 | return __have_sse
|
---|
379 | && is_same_v<_Tp,
|
---|
380 | float> && sizeof(__intrinsic_type_t<_Tp, _Np>) == 16;
|
---|
381 | }
|
---|
382 |
|
---|
383 | template <typename _Tp, size_t _Np>
|
---|
384 | constexpr bool
|
---|
385 | __is_sse_pd()
|
---|
386 | {
|
---|
387 | return __have_sse2
|
---|
388 | && is_same_v<_Tp,
|
---|
389 | double> && sizeof(__intrinsic_type_t<_Tp, _Np>) == 16;
|
---|
390 | }
|
---|
391 |
|
---|
392 | template <typename _Tp, size_t _Np>
|
---|
393 | constexpr bool
|
---|
394 | __is_avx_ps()
|
---|
395 | {
|
---|
396 | return __have_avx
|
---|
397 | && is_same_v<_Tp,
|
---|
398 | float> && sizeof(__intrinsic_type_t<_Tp, _Np>) == 32;
|
---|
399 | }
|
---|
400 |
|
---|
401 | template <typename _Tp, size_t _Np>
|
---|
402 | constexpr bool
|
---|
403 | __is_avx_pd()
|
---|
404 | {
|
---|
405 | return __have_avx
|
---|
406 | && is_same_v<_Tp,
|
---|
407 | double> && sizeof(__intrinsic_type_t<_Tp, _Np>) == 32;
|
---|
408 | }
|
---|
409 |
|
---|
410 | template <typename _Tp, size_t _Np>
|
---|
411 | constexpr bool
|
---|
412 | __is_avx512_ps()
|
---|
413 | {
|
---|
414 | return __have_avx512f
|
---|
415 | && is_same_v<_Tp,
|
---|
416 | float> && sizeof(__intrinsic_type_t<_Tp, _Np>) == 64;
|
---|
417 | }
|
---|
418 |
|
---|
419 | template <typename _Tp, size_t _Np>
|
---|
420 | constexpr bool
|
---|
421 | __is_avx512_pd()
|
---|
422 | {
|
---|
423 | return __have_avx512f
|
---|
424 | && is_same_v<_Tp,
|
---|
425 | double> && sizeof(__intrinsic_type_t<_Tp, _Np>) == 64;
|
---|
426 | }
|
---|
427 |
|
---|
428 | // }}}
|
---|
429 | struct _MaskImplX86Mixin;
|
---|
430 |
|
---|
431 | // _CommonImplX86 {{{
|
---|
432 | struct _CommonImplX86 : _CommonImplBuiltin
|
---|
433 | {
|
---|
434 | #ifdef _GLIBCXX_SIMD_WORKAROUND_PR85048
|
---|
435 | // _S_converts_via_decomposition {{{
|
---|
436 | template <typename _From, typename _To, size_t _ToSize>
|
---|
437 | static constexpr bool _S_converts_via_decomposition()
|
---|
438 | {
|
---|
439 | if constexpr (is_integral_v<
|
---|
440 | _From> && is_integral_v<_To> && sizeof(_From) == 8
|
---|
441 | && _ToSize == 16)
|
---|
442 | return (sizeof(_To) == 2 && !__have_ssse3)
|
---|
443 | || (sizeof(_To) == 1 && !__have_avx512f);
|
---|
444 | else if constexpr (is_floating_point_v<_From> && is_integral_v<_To>)
|
---|
445 | return ((sizeof(_From) == 4 || sizeof(_From) == 8) && sizeof(_To) == 8
|
---|
446 | && !__have_avx512dq)
|
---|
447 | || (sizeof(_From) == 8 && sizeof(_To) == 4 && !__have_sse4_1
|
---|
448 | && _ToSize == 16);
|
---|
449 | else if constexpr (
|
---|
450 | is_integral_v<_From> && is_floating_point_v<_To> && sizeof(_From) == 8
|
---|
451 | && !__have_avx512dq)
|
---|
452 | return (sizeof(_To) == 4 && _ToSize == 16)
|
---|
453 | || (sizeof(_To) == 8 && _ToSize < 64);
|
---|
454 | else
|
---|
455 | return false;
|
---|
456 | }
|
---|
457 |
|
---|
458 | template <typename _From, typename _To, size_t _ToSize>
|
---|
459 | static inline constexpr bool __converts_via_decomposition_v
|
---|
460 | = _S_converts_via_decomposition<_From, _To, _ToSize>();
|
---|
461 |
|
---|
462 | // }}}
|
---|
463 | #endif
|
---|
464 | // _S_store {{{
|
---|
465 | using _CommonImplBuiltin::_S_store;
|
---|
466 |
|
---|
467 | template <typename _Tp, size_t _Np>
|
---|
468 | _GLIBCXX_SIMD_INTRINSIC static void _S_store(_SimdWrapper<_Tp, _Np> __x,
|
---|
469 | void* __addr)
|
---|
470 | {
|
---|
471 | constexpr size_t _Bytes = _Np * sizeof(_Tp);
|
---|
472 |
|
---|
473 | if constexpr ((_Bytes & (_Bytes - 1)) != 0 && __have_avx512bw_vl)
|
---|
474 | {
|
---|
475 | const auto __v = __to_intrin(__x);
|
---|
476 |
|
---|
477 | if constexpr (_Bytes & 1)
|
---|
478 | {
|
---|
479 | if constexpr (_Bytes < 16)
|
---|
480 | _mm_mask_storeu_epi8(__addr, 0xffffu >> (16 - _Bytes),
|
---|
481 | __intrin_bitcast<__m128i>(__v));
|
---|
482 | else if constexpr (_Bytes < 32)
|
---|
483 | _mm256_mask_storeu_epi8(__addr, 0xffffffffu >> (32 - _Bytes),
|
---|
484 | __intrin_bitcast<__m256i>(__v));
|
---|
485 | else
|
---|
486 | _mm512_mask_storeu_epi8(__addr,
|
---|
487 | 0xffffffffffffffffull >> (64 - _Bytes),
|
---|
488 | __intrin_bitcast<__m512i>(__v));
|
---|
489 | }
|
---|
490 | else if constexpr (_Bytes & 2)
|
---|
491 | {
|
---|
492 | if constexpr (_Bytes < 16)
|
---|
493 | _mm_mask_storeu_epi16(__addr, 0xffu >> (8 - _Bytes / 2),
|
---|
494 | __intrin_bitcast<__m128i>(__v));
|
---|
495 | else if constexpr (_Bytes < 32)
|
---|
496 | _mm256_mask_storeu_epi16(__addr, 0xffffu >> (16 - _Bytes / 2),
|
---|
497 | __intrin_bitcast<__m256i>(__v));
|
---|
498 | else
|
---|
499 | _mm512_mask_storeu_epi16(__addr,
|
---|
500 | 0xffffffffull >> (32 - _Bytes / 2),
|
---|
501 | __intrin_bitcast<__m512i>(__v));
|
---|
502 | }
|
---|
503 | else if constexpr (_Bytes & 4)
|
---|
504 | {
|
---|
505 | if constexpr (_Bytes < 16)
|
---|
506 | _mm_mask_storeu_epi32(__addr, 0xfu >> (4 - _Bytes / 4),
|
---|
507 | __intrin_bitcast<__m128i>(__v));
|
---|
508 | else if constexpr (_Bytes < 32)
|
---|
509 | _mm256_mask_storeu_epi32(__addr, 0xffu >> (8 - _Bytes / 4),
|
---|
510 | __intrin_bitcast<__m256i>(__v));
|
---|
511 | else
|
---|
512 | _mm512_mask_storeu_epi32(__addr, 0xffffull >> (16 - _Bytes / 4),
|
---|
513 | __intrin_bitcast<__m512i>(__v));
|
---|
514 | }
|
---|
515 | else
|
---|
516 | {
|
---|
517 | static_assert(
|
---|
518 | _Bytes > 16,
|
---|
519 | "_Bytes < 16 && (_Bytes & 7) == 0 && (_Bytes & (_Bytes "
|
---|
520 | "- 1)) != 0 is impossible");
|
---|
521 | if constexpr (_Bytes < 32)
|
---|
522 | _mm256_mask_storeu_epi64(__addr, 0xfu >> (4 - _Bytes / 8),
|
---|
523 | __intrin_bitcast<__m256i>(__v));
|
---|
524 | else
|
---|
525 | _mm512_mask_storeu_epi64(__addr, 0xffull >> (8 - _Bytes / 8),
|
---|
526 | __intrin_bitcast<__m512i>(__v));
|
---|
527 | }
|
---|
528 | }
|
---|
529 | else
|
---|
530 | _CommonImplBuiltin::_S_store(__x, __addr);
|
---|
531 | }
|
---|
532 |
|
---|
533 | // }}}
|
---|
534 | // _S_store_bool_array(_BitMask) {{{
|
---|
535 | template <size_t _Np, bool _Sanitized>
|
---|
536 | _GLIBCXX_SIMD_INTRINSIC static constexpr void
|
---|
537 | _S_store_bool_array(const _BitMask<_Np, _Sanitized> __x, bool* __mem)
|
---|
538 | {
|
---|
539 | if constexpr (__have_avx512bw_vl) // don't care for BW w/o VL
|
---|
540 | _S_store<_Np>(1 & __vector_bitcast<_UChar, _Np>([=]() constexpr {
|
---|
541 | if constexpr (_Np <= 16)
|
---|
542 | return _mm_movm_epi8(__x._M_to_bits());
|
---|
543 | else if constexpr (_Np <= 32)
|
---|
544 | return _mm256_movm_epi8(__x._M_to_bits());
|
---|
545 | else if constexpr (_Np <= 64)
|
---|
546 | return _mm512_movm_epi8(__x._M_to_bits());
|
---|
547 | else
|
---|
548 | __assert_unreachable<_SizeConstant<_Np>>();
|
---|
549 | }()),
|
---|
550 | __mem);
|
---|
551 | else if constexpr (__have_bmi2)
|
---|
552 | {
|
---|
553 | if constexpr (_Np <= 4)
|
---|
554 | _S_store<_Np>(_pdep_u32(__x._M_to_bits(), 0x01010101U), __mem);
|
---|
555 | else
|
---|
556 | __execute_n_times<__div_roundup(_Np, sizeof(size_t))>(
|
---|
557 | [&](auto __i) {
|
---|
558 | constexpr size_t __offset = __i * sizeof(size_t);
|
---|
559 | constexpr int __todo = std::min(sizeof(size_t), _Np - __offset);
|
---|
560 | if constexpr (__todo == 1)
|
---|
561 | __mem[__offset] = __x[__offset];
|
---|
562 | else
|
---|
563 | {
|
---|
564 | const auto __bools =
|
---|
565 | #ifdef __x86_64__
|
---|
566 | _pdep_u64(__x.template _M_extract<__offset>().to_ullong(),
|
---|
567 | 0x0101010101010101ULL);
|
---|
568 | #else // __x86_64__
|
---|
569 | _pdep_u32(
|
---|
570 | __x.template _M_extract<__offset>()._M_to_bits(),
|
---|
571 | 0x01010101U);
|
---|
572 | #endif // __x86_64__
|
---|
573 | _S_store<__todo>(__bools, __mem + __offset);
|
---|
574 | }
|
---|
575 | });
|
---|
576 | }
|
---|
577 | else if constexpr (__have_sse2 && _Np > 7)
|
---|
578 | __execute_n_times<__div_roundup(_Np, 16)>([&](auto __i) {
|
---|
579 | constexpr int __offset = __i * 16;
|
---|
580 | constexpr int __todo = std::min(16, int(_Np) - __offset);
|
---|
581 | const int __bits = __x.template _M_extract<__offset>()._M_to_bits();
|
---|
582 | __vector_type16_t<_UChar> __bools;
|
---|
583 | if constexpr (__have_avx512f)
|
---|
584 | {
|
---|
585 | auto __as32bits
|
---|
586 | = _mm512_maskz_mov_epi32(__bits, __to_intrin(
|
---|
587 | __vector_broadcast<16>(1)));
|
---|
588 | auto __as16bits
|
---|
589 | = __xzyw(_mm256_packs_epi32(__lo256(__as32bits),
|
---|
590 | __todo > 8 ? __hi256(__as32bits)
|
---|
591 | : __m256i()));
|
---|
592 | __bools = __vector_bitcast<_UChar>(
|
---|
593 | _mm_packs_epi16(__lo128(__as16bits), __hi128(__as16bits)));
|
---|
594 | }
|
---|
595 | else
|
---|
596 | {
|
---|
597 | using _V = __vector_type_t<_UChar, 16>;
|
---|
598 | auto __tmp = _mm_cvtsi32_si128(__bits);
|
---|
599 | __tmp = _mm_unpacklo_epi8(__tmp, __tmp);
|
---|
600 | __tmp = _mm_unpacklo_epi16(__tmp, __tmp);
|
---|
601 | __tmp = _mm_unpacklo_epi32(__tmp, __tmp);
|
---|
602 | _V __tmp2 = reinterpret_cast<_V>(__tmp);
|
---|
603 | __tmp2 &= _V{1, 2, 4, 8, 16, 32, 64, 128,
|
---|
604 | 1, 2, 4, 8, 16, 32, 64, 128}; // mask bit index
|
---|
605 | __bools = (__tmp2 == 0) + 1; // 0xff -> 0x00 | 0x00 -> 0x01
|
---|
606 | }
|
---|
607 | _S_store<__todo>(__bools, __mem + __offset);
|
---|
608 | });
|
---|
609 | else
|
---|
610 | _CommonImplBuiltin::_S_store_bool_array(__x, __mem);
|
---|
611 | }
|
---|
612 |
|
---|
613 | // }}}
|
---|
614 | // _S_blend_avx512 {{{
|
---|
615 | // Returns: __k ? __b : __a
|
---|
616 | // TODO: reverse __a and __b to match COND_EXPR
|
---|
617 | // Requires: _TV to be a __vector_type_t matching valuetype for the bitmask
|
---|
618 | // __k
|
---|
619 | template <typename _Kp, typename _TV>
|
---|
620 | _GLIBCXX_SIMD_INTRINSIC static _TV
|
---|
621 | _S_blend_avx512(const _Kp __k, const _TV __a, const _TV __b) noexcept
|
---|
622 | {
|
---|
623 | #ifdef __clang__
|
---|
624 | // FIXME: this does a boolean choice, not a blend
|
---|
625 | return __k ? __a : __b;
|
---|
626 | #else
|
---|
627 | static_assert(__is_vector_type_v<_TV>);
|
---|
628 | using _Tp = typename _VectorTraits<_TV>::value_type;
|
---|
629 | static_assert(sizeof(_TV) >= 16);
|
---|
630 | static_assert(sizeof(_Tp) <= 8);
|
---|
631 | using _IntT
|
---|
632 | = conditional_t<(sizeof(_Tp) > 2),
|
---|
633 | conditional_t<sizeof(_Tp) == 4, int, long long>,
|
---|
634 | conditional_t<sizeof(_Tp) == 1, char, short>>;
|
---|
635 | [[maybe_unused]] const auto __aa = __vector_bitcast<_IntT>(__a);
|
---|
636 | [[maybe_unused]] const auto __bb = __vector_bitcast<_IntT>(__b);
|
---|
637 | if constexpr (sizeof(_TV) == 64)
|
---|
638 | {
|
---|
639 | if constexpr (sizeof(_Tp) == 1)
|
---|
640 | return reinterpret_cast<_TV>(
|
---|
641 | __builtin_ia32_blendmb_512_mask(__aa, __bb, __k));
|
---|
642 | else if constexpr (sizeof(_Tp) == 2)
|
---|
643 | return reinterpret_cast<_TV>(
|
---|
644 | __builtin_ia32_blendmw_512_mask(__aa, __bb, __k));
|
---|
645 | else if constexpr (sizeof(_Tp) == 4 && is_floating_point_v<_Tp>)
|
---|
646 | return __builtin_ia32_blendmps_512_mask(__a, __b, __k);
|
---|
647 | else if constexpr (sizeof(_Tp) == 4)
|
---|
648 | return reinterpret_cast<_TV>(
|
---|
649 | __builtin_ia32_blendmd_512_mask(__aa, __bb, __k));
|
---|
650 | else if constexpr (sizeof(_Tp) == 8 && is_floating_point_v<_Tp>)
|
---|
651 | return __builtin_ia32_blendmpd_512_mask(__a, __b, __k);
|
---|
652 | else if constexpr (sizeof(_Tp) == 8)
|
---|
653 | return reinterpret_cast<_TV>(
|
---|
654 | __builtin_ia32_blendmq_512_mask(__aa, __bb, __k));
|
---|
655 | }
|
---|
656 | else if constexpr (sizeof(_TV) == 32)
|
---|
657 | {
|
---|
658 | if constexpr (sizeof(_Tp) == 1)
|
---|
659 | return reinterpret_cast<_TV>(
|
---|
660 | __builtin_ia32_blendmb_256_mask(__aa, __bb, __k));
|
---|
661 | else if constexpr (sizeof(_Tp) == 2)
|
---|
662 | return reinterpret_cast<_TV>(
|
---|
663 | __builtin_ia32_blendmw_256_mask(__aa, __bb, __k));
|
---|
664 | else if constexpr (sizeof(_Tp) == 4 && is_floating_point_v<_Tp>)
|
---|
665 | return __builtin_ia32_blendmps_256_mask(__a, __b, __k);
|
---|
666 | else if constexpr (sizeof(_Tp) == 4)
|
---|
667 | return reinterpret_cast<_TV>(
|
---|
668 | __builtin_ia32_blendmd_256_mask(__aa, __bb, __k));
|
---|
669 | else if constexpr (sizeof(_Tp) == 8 && is_floating_point_v<_Tp>)
|
---|
670 | return __builtin_ia32_blendmpd_256_mask(__a, __b, __k);
|
---|
671 | else if constexpr (sizeof(_Tp) == 8)
|
---|
672 | return reinterpret_cast<_TV>(
|
---|
673 | __builtin_ia32_blendmq_256_mask(__aa, __bb, __k));
|
---|
674 | }
|
---|
675 | else if constexpr (sizeof(_TV) == 16)
|
---|
676 | {
|
---|
677 | if constexpr (sizeof(_Tp) == 1)
|
---|
678 | return reinterpret_cast<_TV>(
|
---|
679 | __builtin_ia32_blendmb_128_mask(__aa, __bb, __k));
|
---|
680 | else if constexpr (sizeof(_Tp) == 2)
|
---|
681 | return reinterpret_cast<_TV>(
|
---|
682 | __builtin_ia32_blendmw_128_mask(__aa, __bb, __k));
|
---|
683 | else if constexpr (sizeof(_Tp) == 4 && is_floating_point_v<_Tp>)
|
---|
684 | return __builtin_ia32_blendmps_128_mask(__a, __b, __k);
|
---|
685 | else if constexpr (sizeof(_Tp) == 4)
|
---|
686 | return reinterpret_cast<_TV>(
|
---|
687 | __builtin_ia32_blendmd_128_mask(__aa, __bb, __k));
|
---|
688 | else if constexpr (sizeof(_Tp) == 8 && is_floating_point_v<_Tp>)
|
---|
689 | return __builtin_ia32_blendmpd_128_mask(__a, __b, __k);
|
---|
690 | else if constexpr (sizeof(_Tp) == 8)
|
---|
691 | return reinterpret_cast<_TV>(
|
---|
692 | __builtin_ia32_blendmq_128_mask(__aa, __bb, __k));
|
---|
693 | }
|
---|
694 | #endif
|
---|
695 | }
|
---|
696 |
|
---|
697 | // }}}
|
---|
698 | // _S_blend_intrin {{{
|
---|
699 | // Returns: __k ? __b : __a
|
---|
700 | // TODO: reverse __a and __b to match COND_EXPR
|
---|
701 | // Requires: _Tp to be an intrinsic type (integers blend per byte) and 16/32
|
---|
702 | // Bytes wide
|
---|
703 | template <typename _Tp>
|
---|
704 | _GLIBCXX_SIMD_INTRINSIC static _Tp _S_blend_intrin(_Tp __k, _Tp __a,
|
---|
705 | _Tp __b) noexcept
|
---|
706 | {
|
---|
707 | static_assert(is_same_v<decltype(__to_intrin(__a)), _Tp>);
|
---|
708 | constexpr struct
|
---|
709 | {
|
---|
710 | _GLIBCXX_SIMD_INTRINSIC __m128 operator()(__m128 __a, __m128 __b,
|
---|
711 | __m128 __k) const noexcept
|
---|
712 | {
|
---|
713 | return __builtin_ia32_blendvps(__a, __b, __k);
|
---|
714 | }
|
---|
715 | _GLIBCXX_SIMD_INTRINSIC __m128d operator()(__m128d __a, __m128d __b,
|
---|
716 | __m128d __k) const noexcept
|
---|
717 | {
|
---|
718 | return __builtin_ia32_blendvpd(__a, __b, __k);
|
---|
719 | }
|
---|
720 | _GLIBCXX_SIMD_INTRINSIC __m128i operator()(__m128i __a, __m128i __b,
|
---|
721 | __m128i __k) const noexcept
|
---|
722 | {
|
---|
723 | return reinterpret_cast<__m128i>(
|
---|
724 | __builtin_ia32_pblendvb128(reinterpret_cast<__v16qi>(__a),
|
---|
725 | reinterpret_cast<__v16qi>(__b),
|
---|
726 | reinterpret_cast<__v16qi>(__k)));
|
---|
727 | }
|
---|
728 | _GLIBCXX_SIMD_INTRINSIC __m256 operator()(__m256 __a, __m256 __b,
|
---|
729 | __m256 __k) const noexcept
|
---|
730 | {
|
---|
731 | return __builtin_ia32_blendvps256(__a, __b, __k);
|
---|
732 | }
|
---|
733 | _GLIBCXX_SIMD_INTRINSIC __m256d operator()(__m256d __a, __m256d __b,
|
---|
734 | __m256d __k) const noexcept
|
---|
735 | {
|
---|
736 | return __builtin_ia32_blendvpd256(__a, __b, __k);
|
---|
737 | }
|
---|
738 | _GLIBCXX_SIMD_INTRINSIC __m256i operator()(__m256i __a, __m256i __b,
|
---|
739 | __m256i __k) const noexcept
|
---|
740 | {
|
---|
741 | if constexpr (__have_avx2)
|
---|
742 | return reinterpret_cast<__m256i>(
|
---|
743 | __builtin_ia32_pblendvb256(reinterpret_cast<__v32qi>(__a),
|
---|
744 | reinterpret_cast<__v32qi>(__b),
|
---|
745 | reinterpret_cast<__v32qi>(__k)));
|
---|
746 | else
|
---|
747 | return reinterpret_cast<__m256i>(
|
---|
748 | __builtin_ia32_blendvps256(reinterpret_cast<__v8sf>(__a),
|
---|
749 | reinterpret_cast<__v8sf>(__b),
|
---|
750 | reinterpret_cast<__v8sf>(__k)));
|
---|
751 | }
|
---|
752 | } __eval;
|
---|
753 | return __eval(__a, __b, __k);
|
---|
754 | }
|
---|
755 |
|
---|
756 | // }}}
|
---|
757 | // _S_blend {{{
|
---|
758 | // Returns: __k ? __at1 : __at0
|
---|
759 | // TODO: reverse __at0 and __at1 to match COND_EXPR
|
---|
760 | template <typename _Tp, size_t _Np>
|
---|
761 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
|
---|
762 | _S_blend(_SimdWrapper<bool, _Np> __k, _SimdWrapper<_Tp, _Np> __at0,
|
---|
763 | _SimdWrapper<_Tp, _Np> __at1)
|
---|
764 | {
|
---|
765 | static_assert(is_same_v<_Tp, _Tp> && __have_avx512f);
|
---|
766 | if (__k._M_is_constprop() && __at0._M_is_constprop()
|
---|
767 | && __at1._M_is_constprop())
|
---|
768 | return __generate_from_n_evaluations<_Np,
|
---|
769 | __vector_type_t<_Tp, _Np>>([&](
|
---|
770 | auto __i) constexpr { return __k[__i] ? __at1[__i] : __at0[__i]; });
|
---|
771 | else if constexpr (sizeof(__at0) == 64
|
---|
772 | || (__have_avx512vl && sizeof(__at0) >= 16))
|
---|
773 | return _S_blend_avx512(__k._M_data, __at0._M_data, __at1._M_data);
|
---|
774 | else
|
---|
775 | {
|
---|
776 | static_assert((__have_avx512vl && sizeof(__at0) < 16)
|
---|
777 | || !__have_avx512vl);
|
---|
778 | constexpr size_t __size = (__have_avx512vl ? 16 : 64) / sizeof(_Tp);
|
---|
779 | return __vector_bitcast<_Tp, _Np>(
|
---|
780 | _S_blend_avx512(__k._M_data, __vector_bitcast<_Tp, __size>(__at0),
|
---|
781 | __vector_bitcast<_Tp, __size>(__at1)));
|
---|
782 | }
|
---|
783 | }
|
---|
784 |
|
---|
785 | template <typename _Tp, size_t _Np>
|
---|
786 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
|
---|
787 | _S_blend(_SimdWrapper<__int_for_sizeof_t<_Tp>, _Np> __k,
|
---|
788 | _SimdWrapper<_Tp, _Np> __at0, _SimdWrapper<_Tp, _Np> __at1)
|
---|
789 | {
|
---|
790 | const auto __kk = __wrapper_bitcast<_Tp>(__k);
|
---|
791 | if (__builtin_is_constant_evaluated()
|
---|
792 | || (__kk._M_is_constprop() && __at0._M_is_constprop()
|
---|
793 | && __at1._M_is_constprop()))
|
---|
794 | {
|
---|
795 | auto __r = __or(__andnot(__kk, __at0), __and(__kk, __at1));
|
---|
796 | if (__r._M_is_constprop())
|
---|
797 | return __r;
|
---|
798 | }
|
---|
799 | if constexpr (((__have_avx512f && sizeof(__at0) == 64) || __have_avx512vl)
|
---|
800 | && (sizeof(_Tp) >= 4 || __have_avx512bw))
|
---|
801 | // convert to bitmask and call overload above
|
---|
802 | return _S_blend(
|
---|
803 | _SimdWrapper<bool, _Np>(
|
---|
804 | __make_dependent_t<_Tp, _MaskImplX86Mixin>::_S_to_bits(__k)
|
---|
805 | ._M_to_bits()),
|
---|
806 | __at0, __at1);
|
---|
807 | else
|
---|
808 | {
|
---|
809 | // Since GCC does not assume __k to be a mask, using the builtin
|
---|
810 | // conditional operator introduces an extra compare against 0 before
|
---|
811 | // blending. So we rather call the intrinsic here.
|
---|
812 | if constexpr (__have_sse4_1)
|
---|
813 | return _S_blend_intrin(__to_intrin(__kk), __to_intrin(__at0),
|
---|
814 | __to_intrin(__at1));
|
---|
815 | else
|
---|
816 | return __or(__andnot(__kk, __at0), __and(__kk, __at1));
|
---|
817 | }
|
---|
818 | }
|
---|
819 |
|
---|
820 | // }}}
|
---|
821 | };
|
---|
822 |
|
---|
823 | // }}}
|
---|
824 | // _SimdImplX86 {{{
|
---|
825 | template <typename _Abi>
|
---|
826 | struct _SimdImplX86 : _SimdImplBuiltin<_Abi>
|
---|
827 | {
|
---|
828 | using _Base = _SimdImplBuiltin<_Abi>;
|
---|
829 |
|
---|
830 | template <typename _Tp>
|
---|
831 | using _MaskMember = typename _Base::template _MaskMember<_Tp>;
|
---|
832 |
|
---|
833 | template <typename _Tp>
|
---|
834 | static constexpr size_t _S_full_size = _Abi::template _S_full_size<_Tp>;
|
---|
835 |
|
---|
836 | template <typename _Tp>
|
---|
837 | static constexpr size_t _S_size = _Abi::template _S_size<_Tp>;
|
---|
838 |
|
---|
839 | template <typename _Tp>
|
---|
840 | static constexpr size_t _S_max_store_size
|
---|
841 | = (sizeof(_Tp) >= 4 && __have_avx512f) || __have_avx512bw ? 64
|
---|
842 | : (is_floating_point_v<_Tp>&& __have_avx) || __have_avx2 ? 32
|
---|
843 | : 16;
|
---|
844 | using _MaskImpl = typename _Abi::_MaskImpl;
|
---|
845 |
|
---|
846 | // _S_masked_load {{{
|
---|
847 | template <typename _Tp, size_t _Np, typename _Up>
|
---|
848 | static inline _SimdWrapper<_Tp, _Np>
|
---|
849 | _S_masked_load(_SimdWrapper<_Tp, _Np> __merge, _MaskMember<_Tp> __k,
|
---|
850 | const _Up* __mem) noexcept
|
---|
851 | {
|
---|
852 | static_assert(_Np == _S_size<_Tp>);
|
---|
853 | if constexpr (is_same_v<_Tp, _Up> || // no conversion
|
---|
854 | (sizeof(_Tp) == sizeof(_Up)
|
---|
855 | && is_integral_v<
|
---|
856 | _Tp> == is_integral_v<_Up>) // conversion via bit
|
---|
857 | // reinterpretation
|
---|
858 | )
|
---|
859 | {
|
---|
860 | [[maybe_unused]] const auto __intrin = __to_intrin(__merge);
|
---|
861 | if constexpr ((__is_avx512_abi<_Abi>() || __have_avx512bw_vl)
|
---|
862 | && sizeof(_Tp) == 1)
|
---|
863 | {
|
---|
864 | const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
|
---|
865 | if constexpr (sizeof(__intrin) == 16)
|
---|
866 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
867 | _mm_mask_loadu_epi8(__intrin, __kk, __mem));
|
---|
868 | else if constexpr (sizeof(__merge) == 32)
|
---|
869 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
870 | _mm256_mask_loadu_epi8(__intrin, __kk, __mem));
|
---|
871 | else if constexpr (sizeof(__merge) == 64)
|
---|
872 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
873 | _mm512_mask_loadu_epi8(__intrin, __kk, __mem));
|
---|
874 | else
|
---|
875 | __assert_unreachable<_Tp>();
|
---|
876 | }
|
---|
877 | else if constexpr ((__is_avx512_abi<_Abi>() || __have_avx512bw_vl)
|
---|
878 | && sizeof(_Tp) == 2)
|
---|
879 | {
|
---|
880 | const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
|
---|
881 | if constexpr (sizeof(__intrin) == 16)
|
---|
882 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
883 | _mm_mask_loadu_epi16(__intrin, __kk, __mem));
|
---|
884 | else if constexpr (sizeof(__intrin) == 32)
|
---|
885 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
886 | _mm256_mask_loadu_epi16(__intrin, __kk, __mem));
|
---|
887 | else if constexpr (sizeof(__intrin) == 64)
|
---|
888 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
889 | _mm512_mask_loadu_epi16(__intrin, __kk, __mem));
|
---|
890 | else
|
---|
891 | __assert_unreachable<_Tp>();
|
---|
892 | }
|
---|
893 | else if constexpr ((__is_avx512_abi<_Abi>() || __have_avx512vl)
|
---|
894 | && sizeof(_Tp) == 4 && is_integral_v<_Up>)
|
---|
895 | {
|
---|
896 | const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
|
---|
897 | if constexpr (sizeof(__intrin) == 16)
|
---|
898 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
899 | _mm_mask_loadu_epi32(__intrin, __kk, __mem));
|
---|
900 | else if constexpr (sizeof(__intrin) == 32)
|
---|
901 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
902 | _mm256_mask_loadu_epi32(__intrin, __kk, __mem));
|
---|
903 | else if constexpr (sizeof(__intrin) == 64)
|
---|
904 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
905 | _mm512_mask_loadu_epi32(__intrin, __kk, __mem));
|
---|
906 | else
|
---|
907 | __assert_unreachable<_Tp>();
|
---|
908 | }
|
---|
909 | else if constexpr ((__is_avx512_abi<_Abi>() || __have_avx512vl)
|
---|
910 | && sizeof(_Tp) == 4 && is_floating_point_v<_Up>)
|
---|
911 | {
|
---|
912 | const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
|
---|
913 | if constexpr (sizeof(__intrin) == 16)
|
---|
914 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
915 | _mm_mask_loadu_ps(__intrin, __kk, __mem));
|
---|
916 | else if constexpr (sizeof(__intrin) == 32)
|
---|
917 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
918 | _mm256_mask_loadu_ps(__intrin, __kk, __mem));
|
---|
919 | else if constexpr (sizeof(__intrin) == 64)
|
---|
920 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
921 | _mm512_mask_loadu_ps(__intrin, __kk, __mem));
|
---|
922 | else
|
---|
923 | __assert_unreachable<_Tp>();
|
---|
924 | }
|
---|
925 | else if constexpr (__have_avx2 && sizeof(_Tp) == 4
|
---|
926 | && is_integral_v<_Up>)
|
---|
927 | {
|
---|
928 | static_assert(sizeof(__intrin) == 16 || sizeof(__intrin) == 32);
|
---|
929 | __merge
|
---|
930 | = __or(__andnot(__vector_bitcast<_Tp>(__k), __merge._M_data),
|
---|
931 | __vector_bitcast<_Tp, _Np>(
|
---|
932 | __maskload_epi32(reinterpret_cast<const int*>(__mem),
|
---|
933 | __to_intrin(__k))));
|
---|
934 | }
|
---|
935 | else if constexpr (__have_avx && sizeof(_Tp) == 4)
|
---|
936 | {
|
---|
937 | static_assert(sizeof(__intrin) == 16 || sizeof(__intrin) == 32);
|
---|
938 | __merge
|
---|
939 | = __or(__andnot(__vector_bitcast<_Tp>(__k), __merge._M_data),
|
---|
940 | __vector_bitcast<_Tp, _Np>(
|
---|
941 | __maskload_ps(reinterpret_cast<const float*>(__mem),
|
---|
942 | __to_intrin(__k))));
|
---|
943 | }
|
---|
944 | else if constexpr ((__is_avx512_abi<_Abi>() || __have_avx512vl)
|
---|
945 | && sizeof(_Tp) == 8 && is_integral_v<_Up>)
|
---|
946 | {
|
---|
947 | const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
|
---|
948 | if constexpr (sizeof(__intrin) == 16)
|
---|
949 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
950 | _mm_mask_loadu_epi64(__intrin, __kk, __mem));
|
---|
951 | else if constexpr (sizeof(__intrin) == 32)
|
---|
952 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
953 | _mm256_mask_loadu_epi64(__intrin, __kk, __mem));
|
---|
954 | else if constexpr (sizeof(__intrin) == 64)
|
---|
955 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
956 | _mm512_mask_loadu_epi64(__intrin, __kk, __mem));
|
---|
957 | else
|
---|
958 | __assert_unreachable<_Tp>();
|
---|
959 | }
|
---|
960 | else if constexpr ((__is_avx512_abi<_Abi>() || __have_avx512vl)
|
---|
961 | && sizeof(_Tp) == 8 && is_floating_point_v<_Up>)
|
---|
962 | {
|
---|
963 | const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
|
---|
964 | if constexpr (sizeof(__intrin) == 16)
|
---|
965 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
966 | _mm_mask_loadu_pd(__intrin, __kk, __mem));
|
---|
967 | else if constexpr (sizeof(__intrin) == 32)
|
---|
968 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
969 | _mm256_mask_loadu_pd(__intrin, __kk, __mem));
|
---|
970 | else if constexpr (sizeof(__intrin) == 64)
|
---|
971 | __merge = __vector_bitcast<_Tp, _Np>(
|
---|
972 | _mm512_mask_loadu_pd(__intrin, __kk, __mem));
|
---|
973 | else
|
---|
974 | __assert_unreachable<_Tp>();
|
---|
975 | }
|
---|
976 | else if constexpr (__have_avx2 && sizeof(_Tp) == 8
|
---|
977 | && is_integral_v<_Up>)
|
---|
978 | {
|
---|
979 | static_assert(sizeof(__intrin) == 16 || sizeof(__intrin) == 32);
|
---|
980 | __merge
|
---|
981 | = __or(__andnot(__vector_bitcast<_Tp>(__k), __merge._M_data),
|
---|
982 | __vector_bitcast<_Tp, _Np>(__maskload_epi64(
|
---|
983 | reinterpret_cast<const _LLong*>(__mem),
|
---|
984 | __to_intrin(__k))));
|
---|
985 | }
|
---|
986 | else if constexpr (__have_avx && sizeof(_Tp) == 8)
|
---|
987 | {
|
---|
988 | static_assert(sizeof(__intrin) == 16 || sizeof(__intrin) == 32);
|
---|
989 | __merge
|
---|
990 | = __or(__andnot(__vector_bitcast<_Tp>(__k), __merge._M_data),
|
---|
991 | __vector_bitcast<_Tp, _Np>(
|
---|
992 | __maskload_pd(reinterpret_cast<const double*>(__mem),
|
---|
993 | __to_intrin(__k))));
|
---|
994 | }
|
---|
995 | else
|
---|
996 | _BitOps::_S_bit_iteration(_MaskImpl::_S_to_bits(__k),
|
---|
997 | [&](auto __i) {
|
---|
998 | __merge._M_set(__i, static_cast<_Tp>(
|
---|
999 | __mem[__i]));
|
---|
1000 | });
|
---|
1001 | }
|
---|
1002 | /* Very uncertain, that the following improves anything. Needs
|
---|
1003 | benchmarking
|
---|
1004 | * before it's activated.
|
---|
1005 | else if constexpr (sizeof(_Up) <= 8 && // no long double
|
---|
1006 | !__converts_via_decomposition_v<
|
---|
1007 | _Up, _Tp,
|
---|
1008 | sizeof(__merge)> // conversion via decomposition
|
---|
1009 | // is better handled via the
|
---|
1010 | // bit_iteration fallback below
|
---|
1011 | )
|
---|
1012 | {
|
---|
1013 | // TODO: copy pattern from _S_masked_store, which doesn't resort to
|
---|
1014 | // fixed_size
|
---|
1015 | using _Ap = simd_abi::deduce_t<_Up, _Np>;
|
---|
1016 | using _ATraits = _SimdTraits<_Up, _Ap>;
|
---|
1017 | using _AImpl = typename _ATraits::_SimdImpl;
|
---|
1018 | typename _ATraits::_SimdMember __uncvted{};
|
---|
1019 | typename _ATraits::_MaskMember __kk = _Ap::_MaskImpl::template
|
---|
1020 | _S_convert<_Up>(__k);
|
---|
1021 | __uncvted = _AImpl::_S_masked_load(__uncvted, __kk, __mem);
|
---|
1022 | _SimdConverter<_Up, _Ap, _Tp, _Abi> __converter;
|
---|
1023 | _Base::_S_masked_assign(__k, __merge, __converter(__uncvted));
|
---|
1024 | }
|
---|
1025 | */
|
---|
1026 | else
|
---|
1027 | __merge = _Base::_S_masked_load(__merge, __k, __mem);
|
---|
1028 | return __merge;
|
---|
1029 | }
|
---|
1030 |
|
---|
1031 | // }}}
|
---|
1032 | // _S_masked_store_nocvt {{{
|
---|
1033 | template <typename _Tp, size_t _Np>
|
---|
1034 | _GLIBCXX_SIMD_INTRINSIC static void
|
---|
1035 | _S_masked_store_nocvt(_SimdWrapper<_Tp, _Np> __v, _Tp* __mem,
|
---|
1036 | _SimdWrapper<bool, _Np> __k)
|
---|
1037 | {
|
---|
1038 | [[maybe_unused]] const auto __vi = __to_intrin(__v);
|
---|
1039 | if constexpr (sizeof(__vi) == 64)
|
---|
1040 | {
|
---|
1041 | static_assert(sizeof(__v) == 64 && __have_avx512f);
|
---|
1042 | if constexpr (__have_avx512bw && sizeof(_Tp) == 1)
|
---|
1043 | _mm512_mask_storeu_epi8(__mem, __k, __vi);
|
---|
1044 | else if constexpr (__have_avx512bw && sizeof(_Tp) == 2)
|
---|
1045 | _mm512_mask_storeu_epi16(__mem, __k, __vi);
|
---|
1046 | else if constexpr (__have_avx512f && sizeof(_Tp) == 4)
|
---|
1047 | {
|
---|
1048 | if constexpr (is_integral_v<_Tp>)
|
---|
1049 | _mm512_mask_storeu_epi32(__mem, __k, __vi);
|
---|
1050 | else
|
---|
1051 | _mm512_mask_storeu_ps(__mem, __k, __vi);
|
---|
1052 | }
|
---|
1053 | else if constexpr (__have_avx512f && sizeof(_Tp) == 8)
|
---|
1054 | {
|
---|
1055 | if constexpr (is_integral_v<_Tp>)
|
---|
1056 | _mm512_mask_storeu_epi64(__mem, __k, __vi);
|
---|
1057 | else
|
---|
1058 | _mm512_mask_storeu_pd(__mem, __k, __vi);
|
---|
1059 | }
|
---|
1060 | #if 0 // with KNL either sizeof(_Tp) >= 4 or sizeof(_vi) <= 32
|
---|
1061 | // with Skylake-AVX512, __have_avx512bw is true
|
---|
1062 | else if constexpr (__have_sse2)
|
---|
1063 | {
|
---|
1064 | using _M = __vector_type_t<_Tp, _Np>;
|
---|
1065 | using _MVT = _VectorTraits<_M>;
|
---|
1066 | _mm_maskmoveu_si128(__auto_bitcast(__extract<0, 4>(__v._M_data)),
|
---|
1067 | __auto_bitcast(_MaskImpl::template _S_convert<_Tp, _Np>(__k._M_data)),
|
---|
1068 | reinterpret_cast<char*>(__mem));
|
---|
1069 | _mm_maskmoveu_si128(__auto_bitcast(__extract<1, 4>(__v._M_data)),
|
---|
1070 | __auto_bitcast(_MaskImpl::template _S_convert<_Tp, _Np>(
|
---|
1071 | __k._M_data >> 1 * _MVT::_S_full_size)),
|
---|
1072 | reinterpret_cast<char*>(__mem) + 1 * 16);
|
---|
1073 | _mm_maskmoveu_si128(__auto_bitcast(__extract<2, 4>(__v._M_data)),
|
---|
1074 | __auto_bitcast(_MaskImpl::template _S_convert<_Tp, _Np>(
|
---|
1075 | __k._M_data >> 2 * _MVT::_S_full_size)),
|
---|
1076 | reinterpret_cast<char*>(__mem) + 2 * 16);
|
---|
1077 | if constexpr (_Np > 48 / sizeof(_Tp))
|
---|
1078 | _mm_maskmoveu_si128(
|
---|
1079 | __auto_bitcast(__extract<3, 4>(__v._M_data)),
|
---|
1080 | __auto_bitcast(_MaskImpl::template _S_convert<_Tp, _Np>(
|
---|
1081 | __k._M_data >> 3 * _MVT::_S_full_size)),
|
---|
1082 | reinterpret_cast<char*>(__mem) + 3 * 16);
|
---|
1083 | }
|
---|
1084 | #endif
|
---|
1085 | else
|
---|
1086 | __assert_unreachable<_Tp>();
|
---|
1087 | }
|
---|
1088 | else if constexpr (sizeof(__vi) == 32)
|
---|
1089 | {
|
---|
1090 | if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 1)
|
---|
1091 | _mm256_mask_storeu_epi8(__mem, __k, __vi);
|
---|
1092 | else if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 2)
|
---|
1093 | _mm256_mask_storeu_epi16(__mem, __k, __vi);
|
---|
1094 | else if constexpr (__have_avx512vl && sizeof(_Tp) == 4)
|
---|
1095 | {
|
---|
1096 | if constexpr (is_integral_v<_Tp>)
|
---|
1097 | _mm256_mask_storeu_epi32(__mem, __k, __vi);
|
---|
1098 | else
|
---|
1099 | _mm256_mask_storeu_ps(__mem, __k, __vi);
|
---|
1100 | }
|
---|
1101 | else if constexpr (__have_avx512vl && sizeof(_Tp) == 8)
|
---|
1102 | {
|
---|
1103 | if constexpr (is_integral_v<_Tp>)
|
---|
1104 | _mm256_mask_storeu_epi64(__mem, __k, __vi);
|
---|
1105 | else
|
---|
1106 | _mm256_mask_storeu_pd(__mem, __k, __vi);
|
---|
1107 | }
|
---|
1108 | else if constexpr (__have_avx512f
|
---|
1109 | && (sizeof(_Tp) >= 4 || __have_avx512bw))
|
---|
1110 | {
|
---|
1111 | // use a 512-bit maskstore, using zero-extension of the bitmask
|
---|
1112 | _S_masked_store_nocvt(
|
---|
1113 | _SimdWrapper64<_Tp>(
|
---|
1114 | __intrin_bitcast<__vector_type64_t<_Tp>>(__v._M_data)),
|
---|
1115 | __mem, _SimdWrapper<bool, 64 / sizeof(_Tp)>(__k._M_data));
|
---|
1116 | }
|
---|
1117 | else
|
---|
1118 | _S_masked_store_nocvt(__v, __mem,
|
---|
1119 | _MaskImpl::template _S_to_maskvector<
|
---|
1120 | __int_for_sizeof_t<_Tp>, _Np>(__k));
|
---|
1121 | }
|
---|
1122 | else if constexpr (sizeof(__vi) == 16)
|
---|
1123 | {
|
---|
1124 | if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 1)
|
---|
1125 | _mm_mask_storeu_epi8(__mem, __k, __vi);
|
---|
1126 | else if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 2)
|
---|
1127 | _mm_mask_storeu_epi16(__mem, __k, __vi);
|
---|
1128 | else if constexpr (__have_avx512vl && sizeof(_Tp) == 4)
|
---|
1129 | {
|
---|
1130 | if constexpr (is_integral_v<_Tp>)
|
---|
1131 | _mm_mask_storeu_epi32(__mem, __k, __vi);
|
---|
1132 | else
|
---|
1133 | _mm_mask_storeu_ps(__mem, __k, __vi);
|
---|
1134 | }
|
---|
1135 | else if constexpr (__have_avx512vl && sizeof(_Tp) == 8)
|
---|
1136 | {
|
---|
1137 | if constexpr (is_integral_v<_Tp>)
|
---|
1138 | _mm_mask_storeu_epi64(__mem, __k, __vi);
|
---|
1139 | else
|
---|
1140 | _mm_mask_storeu_pd(__mem, __k, __vi);
|
---|
1141 | }
|
---|
1142 | else if constexpr (__have_avx512f
|
---|
1143 | && (sizeof(_Tp) >= 4 || __have_avx512bw))
|
---|
1144 | {
|
---|
1145 | // use a 512-bit maskstore, using zero-extension of the bitmask
|
---|
1146 | _S_masked_store_nocvt(
|
---|
1147 | _SimdWrapper64<_Tp>(
|
---|
1148 | __intrin_bitcast<__intrinsic_type64_t<_Tp>>(__v._M_data)),
|
---|
1149 | __mem, _SimdWrapper<bool, 64 / sizeof(_Tp)>(__k._M_data));
|
---|
1150 | }
|
---|
1151 | else
|
---|
1152 | _S_masked_store_nocvt(__v, __mem,
|
---|
1153 | _MaskImpl::template _S_to_maskvector<
|
---|
1154 | __int_for_sizeof_t<_Tp>, _Np>(__k));
|
---|
1155 | }
|
---|
1156 | else
|
---|
1157 | __assert_unreachable<_Tp>();
|
---|
1158 | }
|
---|
1159 |
|
---|
1160 | template <typename _Tp, size_t _Np>
|
---|
1161 | _GLIBCXX_SIMD_INTRINSIC static void
|
---|
1162 | _S_masked_store_nocvt(_SimdWrapper<_Tp, _Np> __v, _Tp* __mem,
|
---|
1163 | _SimdWrapper<__int_for_sizeof_t<_Tp>, _Np> __k)
|
---|
1164 | {
|
---|
1165 | if constexpr (sizeof(__v) <= 16)
|
---|
1166 | {
|
---|
1167 | [[maybe_unused]] const auto __vi
|
---|
1168 | = __intrin_bitcast<__m128i>(__as_vector(__v));
|
---|
1169 | [[maybe_unused]] const auto __ki
|
---|
1170 | = __intrin_bitcast<__m128i>(__as_vector(__k));
|
---|
1171 | if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 1)
|
---|
1172 | _mm_mask_storeu_epi8(__mem, _mm_movepi8_mask(__ki), __vi);
|
---|
1173 | else if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 2)
|
---|
1174 | _mm_mask_storeu_epi16(__mem, _mm_movepi16_mask(__ki), __vi);
|
---|
1175 | else if constexpr (__have_avx2 && sizeof(_Tp) == 4
|
---|
1176 | && is_integral_v<_Tp>)
|
---|
1177 | _mm_maskstore_epi32(reinterpret_cast<int*>(__mem), __ki, __vi);
|
---|
1178 | else if constexpr (__have_avx && sizeof(_Tp) == 4)
|
---|
1179 | _mm_maskstore_ps(reinterpret_cast<float*>(__mem), __ki,
|
---|
1180 | __vector_bitcast<float>(__vi));
|
---|
1181 | else if constexpr (__have_avx2 && sizeof(_Tp) == 8
|
---|
1182 | && is_integral_v<_Tp>)
|
---|
1183 | _mm_maskstore_epi64(reinterpret_cast<_LLong*>(__mem), __ki, __vi);
|
---|
1184 | else if constexpr (__have_avx && sizeof(_Tp) == 8)
|
---|
1185 | _mm_maskstore_pd(reinterpret_cast<double*>(__mem), __ki,
|
---|
1186 | __vector_bitcast<double>(__vi));
|
---|
1187 | else if constexpr (__have_sse2)
|
---|
1188 | _mm_maskmoveu_si128(__vi, __ki, reinterpret_cast<char*>(__mem));
|
---|
1189 | }
|
---|
1190 | else if constexpr (sizeof(__v) == 32)
|
---|
1191 | {
|
---|
1192 | [[maybe_unused]] const auto __vi
|
---|
1193 | = __intrin_bitcast<__m256i>(__as_vector(__v));
|
---|
1194 | [[maybe_unused]] const auto __ki
|
---|
1195 | = __intrin_bitcast<__m256i>(__as_vector(__k));
|
---|
1196 | if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 1)
|
---|
1197 | _mm256_mask_storeu_epi8(__mem, _mm256_movepi8_mask(__ki), __vi);
|
---|
1198 | else if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 2)
|
---|
1199 | _mm256_mask_storeu_epi16(__mem, _mm256_movepi16_mask(__ki), __vi);
|
---|
1200 | else if constexpr (__have_avx2 && sizeof(_Tp) == 4
|
---|
1201 | && is_integral_v<_Tp>)
|
---|
1202 | _mm256_maskstore_epi32(reinterpret_cast<int*>(__mem), __ki, __vi);
|
---|
1203 | else if constexpr (sizeof(_Tp) == 4)
|
---|
1204 | _mm256_maskstore_ps(reinterpret_cast<float*>(__mem), __ki,
|
---|
1205 | __vector_bitcast<float>(__v));
|
---|
1206 | else if constexpr (__have_avx2 && sizeof(_Tp) == 8
|
---|
1207 | && is_integral_v<_Tp>)
|
---|
1208 | _mm256_maskstore_epi64(reinterpret_cast<_LLong*>(__mem), __ki,
|
---|
1209 | __vi);
|
---|
1210 | else if constexpr (__have_avx && sizeof(_Tp) == 8)
|
---|
1211 | _mm256_maskstore_pd(reinterpret_cast<double*>(__mem), __ki,
|
---|
1212 | __vector_bitcast<double>(__v));
|
---|
1213 | else if constexpr (__have_sse2)
|
---|
1214 | {
|
---|
1215 | _mm_maskmoveu_si128(__lo128(__vi), __lo128(__ki),
|
---|
1216 | reinterpret_cast<char*>(__mem));
|
---|
1217 | _mm_maskmoveu_si128(__hi128(__vi), __hi128(__ki),
|
---|
1218 | reinterpret_cast<char*>(__mem) + 16);
|
---|
1219 | }
|
---|
1220 | }
|
---|
1221 | else
|
---|
1222 | __assert_unreachable<_Tp>();
|
---|
1223 | }
|
---|
1224 |
|
---|
1225 | // }}}
|
---|
1226 | // _S_masked_store {{{
|
---|
1227 | template <typename _Tp, size_t _Np, typename _Up>
|
---|
1228 | _GLIBCXX_SIMD_INTRINSIC static void
|
---|
1229 | _S_masked_store(const _SimdWrapper<_Tp, _Np> __v, _Up* __mem,
|
---|
1230 | const _MaskMember<_Tp> __k) noexcept
|
---|
1231 | {
|
---|
1232 | if constexpr (is_integral_v<
|
---|
1233 | _Tp> && is_integral_v<_Up> && sizeof(_Tp) > sizeof(_Up)
|
---|
1234 | && __have_avx512f && (sizeof(_Tp) >= 4 || __have_avx512bw)
|
---|
1235 | && (sizeof(__v) == 64 || __have_avx512vl))
|
---|
1236 | { // truncating store
|
---|
1237 | const auto __vi = __to_intrin(__v);
|
---|
1238 | const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
|
---|
1239 | if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 4
|
---|
1240 | && sizeof(__vi) == 64)
|
---|
1241 | _mm512_mask_cvtepi64_storeu_epi32(__mem, __kk, __vi);
|
---|
1242 | else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 4
|
---|
1243 | && sizeof(__vi) == 32)
|
---|
1244 | _mm256_mask_cvtepi64_storeu_epi32(__mem, __kk, __vi);
|
---|
1245 | else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 4
|
---|
1246 | && sizeof(__vi) == 16)
|
---|
1247 | _mm_mask_cvtepi64_storeu_epi32(__mem, __kk, __vi);
|
---|
1248 | else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 2
|
---|
1249 | && sizeof(__vi) == 64)
|
---|
1250 | _mm512_mask_cvtepi64_storeu_epi16(__mem, __kk, __vi);
|
---|
1251 | else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 2
|
---|
1252 | && sizeof(__vi) == 32)
|
---|
1253 | _mm256_mask_cvtepi64_storeu_epi16(__mem, __kk, __vi);
|
---|
1254 | else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 2
|
---|
1255 | && sizeof(__vi) == 16)
|
---|
1256 | _mm_mask_cvtepi64_storeu_epi16(__mem, __kk, __vi);
|
---|
1257 | else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 1
|
---|
1258 | && sizeof(__vi) == 64)
|
---|
1259 | _mm512_mask_cvtepi64_storeu_epi8(__mem, __kk, __vi);
|
---|
1260 | else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 1
|
---|
1261 | && sizeof(__vi) == 32)
|
---|
1262 | _mm256_mask_cvtepi64_storeu_epi8(__mem, __kk, __vi);
|
---|
1263 | else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 1
|
---|
1264 | && sizeof(__vi) == 16)
|
---|
1265 | _mm_mask_cvtepi64_storeu_epi8(__mem, __kk, __vi);
|
---|
1266 | else if constexpr (sizeof(_Tp) == 4 && sizeof(_Up) == 2
|
---|
1267 | && sizeof(__vi) == 64)
|
---|
1268 | _mm512_mask_cvtepi32_storeu_epi16(__mem, __kk, __vi);
|
---|
1269 | else if constexpr (sizeof(_Tp) == 4 && sizeof(_Up) == 2
|
---|
1270 | && sizeof(__vi) == 32)
|
---|
1271 | _mm256_mask_cvtepi32_storeu_epi16(__mem, __kk, __vi);
|
---|
1272 | else if constexpr (sizeof(_Tp) == 4 && sizeof(_Up) == 2
|
---|
1273 | && sizeof(__vi) == 16)
|
---|
1274 | _mm_mask_cvtepi32_storeu_epi16(__mem, __kk, __vi);
|
---|
1275 | else if constexpr (sizeof(_Tp) == 4 && sizeof(_Up) == 1
|
---|
1276 | && sizeof(__vi) == 64)
|
---|
1277 | _mm512_mask_cvtepi32_storeu_epi8(__mem, __kk, __vi);
|
---|
1278 | else if constexpr (sizeof(_Tp) == 4 && sizeof(_Up) == 1
|
---|
1279 | && sizeof(__vi) == 32)
|
---|
1280 | _mm256_mask_cvtepi32_storeu_epi8(__mem, __kk, __vi);
|
---|
1281 | else if constexpr (sizeof(_Tp) == 4 && sizeof(_Up) == 1
|
---|
1282 | && sizeof(__vi) == 16)
|
---|
1283 | _mm_mask_cvtepi32_storeu_epi8(__mem, __kk, __vi);
|
---|
1284 | else if constexpr (sizeof(_Tp) == 2 && sizeof(_Up) == 1
|
---|
1285 | && sizeof(__vi) == 64)
|
---|
1286 | _mm512_mask_cvtepi16_storeu_epi8(__mem, __kk, __vi);
|
---|
1287 | else if constexpr (sizeof(_Tp) == 2 && sizeof(_Up) == 1
|
---|
1288 | && sizeof(__vi) == 32)
|
---|
1289 | _mm256_mask_cvtepi16_storeu_epi8(__mem, __kk, __vi);
|
---|
1290 | else if constexpr (sizeof(_Tp) == 2 && sizeof(_Up) == 1
|
---|
1291 | && sizeof(__vi) == 16)
|
---|
1292 | _mm_mask_cvtepi16_storeu_epi8(__mem, __kk, __vi);
|
---|
1293 | else
|
---|
1294 | __assert_unreachable<_Tp>();
|
---|
1295 | }
|
---|
1296 | else
|
---|
1297 | _Base::_S_masked_store(__v, __mem, __k);
|
---|
1298 | }
|
---|
1299 |
|
---|
1300 | // }}}
|
---|
1301 | // _S_multiplies {{{
|
---|
1302 | template <typename _V, typename _VVT = _VectorTraits<_V>>
|
---|
1303 | _GLIBCXX_SIMD_INTRINSIC static constexpr _V _S_multiplies(_V __x, _V __y)
|
---|
1304 | {
|
---|
1305 | using _Tp = typename _VVT::value_type;
|
---|
1306 | if (__builtin_is_constant_evaluated() || __x._M_is_constprop()
|
---|
1307 | || __y._M_is_constprop())
|
---|
1308 | return __as_vector(__x) * __as_vector(__y);
|
---|
1309 | else if constexpr (sizeof(_Tp) == 1)
|
---|
1310 | {
|
---|
1311 | if constexpr (sizeof(_V) == 2)
|
---|
1312 | {
|
---|
1313 | const auto __xs = reinterpret_cast<short>(__x._M_data);
|
---|
1314 | const auto __ys = reinterpret_cast<short>(__y._M_data);
|
---|
1315 | return reinterpret_cast<__vector_type_t<_Tp, 2>>(short(
|
---|
1316 | ((__xs * __ys) & 0xff) | ((__xs >> 8) * (__ys & 0xff00))));
|
---|
1317 | }
|
---|
1318 | else if constexpr (sizeof(_V) == 4 && _VVT::_S_partial_width == 3)
|
---|
1319 | {
|
---|
1320 | const auto __xi = reinterpret_cast<int>(__x._M_data);
|
---|
1321 | const auto __yi = reinterpret_cast<int>(__y._M_data);
|
---|
1322 | return reinterpret_cast<__vector_type_t<_Tp, 3>>(
|
---|
1323 | ((__xi * __yi) & 0xff)
|
---|
1324 | | (((__xi >> 8) * (__yi & 0xff00)) & 0xff00)
|
---|
1325 | | ((__xi >> 16) * (__yi & 0xff0000)));
|
---|
1326 | }
|
---|
1327 | else if constexpr (sizeof(_V) == 4)
|
---|
1328 | {
|
---|
1329 | const auto __xi = reinterpret_cast<int>(__x._M_data);
|
---|
1330 | const auto __yi = reinterpret_cast<int>(__y._M_data);
|
---|
1331 | return reinterpret_cast<__vector_type_t<_Tp, 4>>(
|
---|
1332 | ((__xi * __yi) & 0xff)
|
---|
1333 | | (((__xi >> 8) * (__yi & 0xff00)) & 0xff00)
|
---|
1334 | | (((__xi >> 16) * (__yi & 0xff0000)) & 0xff0000)
|
---|
1335 | | ((__xi >> 24) * (__yi & 0xff000000u)));
|
---|
1336 | }
|
---|
1337 | else if constexpr (sizeof(_V) == 8 && __have_avx2
|
---|
1338 | && is_signed_v<_Tp>)
|
---|
1339 | return __convert<typename _VVT::type>(
|
---|
1340 | __vector_bitcast<short>(_mm_cvtepi8_epi16(__to_intrin(__x)))
|
---|
1341 | * __vector_bitcast<short>(_mm_cvtepi8_epi16(__to_intrin(__y))));
|
---|
1342 | else if constexpr (sizeof(_V) == 8 && __have_avx2
|
---|
1343 | && is_unsigned_v<_Tp>)
|
---|
1344 | return __convert<typename _VVT::type>(
|
---|
1345 | __vector_bitcast<short>(_mm_cvtepu8_epi16(__to_intrin(__x)))
|
---|
1346 | * __vector_bitcast<short>(_mm_cvtepu8_epi16(__to_intrin(__y))));
|
---|
1347 | else
|
---|
1348 | {
|
---|
1349 | // codegen of `x*y` is suboptimal (as of GCC 9.0.1)
|
---|
1350 | constexpr size_t __full_size = _VVT::_S_full_size;
|
---|
1351 | constexpr int _Np = sizeof(_V) >= 16 ? __full_size / 2 : 8;
|
---|
1352 | using _ShortW = _SimdWrapper<short, _Np>;
|
---|
1353 | const _ShortW __even = __vector_bitcast<short, _Np>(__x)
|
---|
1354 | * __vector_bitcast<short, _Np>(__y);
|
---|
1355 | _ShortW __high_byte = _ShortW()._M_data - 256;
|
---|
1356 | //[&]() { asm("" : "+x"(__high_byte._M_data)); }();
|
---|
1357 | const _ShortW __odd
|
---|
1358 | = (__vector_bitcast<short, _Np>(__x) >> 8)
|
---|
1359 | * (__vector_bitcast<short, _Np>(__y) & __high_byte._M_data);
|
---|
1360 | if constexpr (__have_avx512bw && sizeof(_V) > 2)
|
---|
1361 | return _CommonImplX86::_S_blend_avx512(
|
---|
1362 | 0xaaaa'aaaa'aaaa'aaaaLL, __vector_bitcast<_Tp>(__even),
|
---|
1363 | __vector_bitcast<_Tp>(__odd));
|
---|
1364 | else if constexpr (__have_sse4_1 && sizeof(_V) > 2)
|
---|
1365 | return _CommonImplX86::_S_blend_intrin(__to_intrin(
|
---|
1366 | __high_byte),
|
---|
1367 | __to_intrin(__even),
|
---|
1368 | __to_intrin(__odd));
|
---|
1369 | else
|
---|
1370 | return __to_intrin(
|
---|
1371 | __or(__andnot(__high_byte, __even), __odd));
|
---|
1372 | }
|
---|
1373 | }
|
---|
1374 | else
|
---|
1375 | return _Base::_S_multiplies(__x, __y);
|
---|
1376 | }
|
---|
1377 |
|
---|
1378 | // }}}
|
---|
1379 | // _S_divides {{{
|
---|
1380 | #ifdef _GLIBCXX_SIMD_WORKAROUND_PR90993
|
---|
1381 | template <typename _Tp, size_t _Np>
|
---|
1382 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
|
---|
1383 | _S_divides(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
|
---|
1384 | {
|
---|
1385 | if (!__builtin_is_constant_evaluated()
|
---|
1386 | && !__builtin_constant_p(__y._M_data))
|
---|
1387 | if constexpr (is_integral_v<_Tp> && sizeof(_Tp) <= 4)
|
---|
1388 | { // use divps - codegen of `x/y` is suboptimal (as of GCC 9.0.1)
|
---|
1389 | // Note that using floating-point division is likely to raise the
|
---|
1390 | // *Inexact* exception flag and thus appears like an invalid
|
---|
1391 | // "as-if" transformation. However, C++ doesn't specify how the
|
---|
1392 | // fpenv can be observed and points to C. C says that function
|
---|
1393 | // calls are assumed to potentially raise fp exceptions, unless
|
---|
1394 | // documented otherwise. Consequently, operator/, which is a
|
---|
1395 | // function call, may raise fp exceptions.
|
---|
1396 | /*const struct _CsrGuard
|
---|
1397 | {
|
---|
1398 | const unsigned _M_data = _mm_getcsr();
|
---|
1399 | _CsrGuard()
|
---|
1400 | {
|
---|
1401 | _mm_setcsr(0x9f80); // turn off FP exceptions and
|
---|
1402 | flush-to-zero
|
---|
1403 | }
|
---|
1404 | ~_CsrGuard() { _mm_setcsr(_M_data); }
|
---|
1405 | } __csr;*/
|
---|
1406 | using _Float = conditional_t<sizeof(_Tp) == 4, double, float>;
|
---|
1407 | constexpr size_t __n_intermediate
|
---|
1408 | = std::min(_Np, (__have_avx512f ? 64
|
---|
1409 | : __have_avx ? 32
|
---|
1410 | : 16)
|
---|
1411 | / sizeof(_Float));
|
---|
1412 | using _FloatV = __vector_type_t<_Float, __n_intermediate>;
|
---|
1413 | constexpr size_t __n_floatv
|
---|
1414 | = __div_roundup(_Np, __n_intermediate);
|
---|
1415 | using _R = __vector_type_t<_Tp, _Np>;
|
---|
1416 | const auto __xf = __convert_all<_FloatV, __n_floatv>(__x);
|
---|
1417 | const auto __yf = __convert_all<_FloatV, __n_floatv>(
|
---|
1418 | _Abi::__make_padding_nonzero(__as_vector(__y)));
|
---|
1419 | return __call_with_n_evaluations<__n_floatv>(
|
---|
1420 | [](auto... __quotients) {
|
---|
1421 | return __vector_convert<_R>(__quotients...);
|
---|
1422 | },
|
---|
1423 | [&__xf,
|
---|
1424 | &__yf](auto __i) -> _SimdWrapper<_Float, __n_intermediate> {
|
---|
1425 | #if !defined __clang__ && __GCC_IEC_559 == 0
|
---|
1426 | // If -freciprocal-math is active, using the `/` operator is
|
---|
1427 | // incorrect because it may be translated to an imprecise
|
---|
1428 | // multiplication with reciprocal. We need to use inline
|
---|
1429 | // assembly to force a real division.
|
---|
1430 | _FloatV __r;
|
---|
1431 | if constexpr (__have_avx) // -mno-sse2avx is irrelevant
|
---|
1432 | // because once -mavx is given, GCC
|
---|
1433 | // emits VEX encoded vdivp[sd]
|
---|
1434 | {
|
---|
1435 | if constexpr (sizeof(_Tp) == 4)
|
---|
1436 | asm("vdivpd\t{%2, %1, %0|%0, %1, %2}"
|
---|
1437 | : "=x"(__r)
|
---|
1438 | : "x"(__xf[__i]), "x"(__yf[__i]));
|
---|
1439 | else
|
---|
1440 | asm("vdivps\t{%2, %1, %0|%0, %1, %2}"
|
---|
1441 | : "=x"(__r)
|
---|
1442 | : "x"(__xf[__i]), "x"(__yf[__i]));
|
---|
1443 | }
|
---|
1444 | else
|
---|
1445 | {
|
---|
1446 | __r = __xf[__i];
|
---|
1447 | if constexpr (sizeof(_Tp) == 4)
|
---|
1448 | asm("divpd\t{%1, %0|%0, %1}"
|
---|
1449 | : "=x"(__r)
|
---|
1450 | : "x"(__yf[__i]));
|
---|
1451 | else
|
---|
1452 | asm("divps\t{%1, %0|%0, %1}"
|
---|
1453 | : "=x"(__r)
|
---|
1454 | : "x"(__yf[__i]));
|
---|
1455 | }
|
---|
1456 | return __r;
|
---|
1457 | #else
|
---|
1458 | return __xf[__i] / __yf[__i];
|
---|
1459 | #endif
|
---|
1460 | });
|
---|
1461 | }
|
---|
1462 | /* 64-bit int division is potentially optimizable via double division if
|
---|
1463 | * the value in __x is small enough and the conversion between
|
---|
1464 | * int<->double is efficient enough:
|
---|
1465 | else if constexpr (is_integral_v<_Tp> && is_unsigned_v<_Tp> &&
|
---|
1466 | sizeof(_Tp) == 8)
|
---|
1467 | {
|
---|
1468 | if constexpr (__have_sse4_1 && sizeof(__x) == 16)
|
---|
1469 | {
|
---|
1470 | if (_mm_test_all_zeros(__x, __m128i{0xffe0'0000'0000'0000ull,
|
---|
1471 | 0xffe0'0000'0000'0000ull}))
|
---|
1472 | {
|
---|
1473 | __x._M_data | 0x __vector_convert<__m128d>(__x._M_data)
|
---|
1474 | }
|
---|
1475 | }
|
---|
1476 | }
|
---|
1477 | */
|
---|
1478 | return _Base::_S_divides(__x, __y);
|
---|
1479 | }
|
---|
1480 | #endif // _GLIBCXX_SIMD_WORKAROUND_PR90993
|
---|
1481 |
|
---|
1482 | // }}}
|
---|
1483 | // _S_modulus {{{
|
---|
1484 | template <typename _Tp, size_t _Np>
|
---|
1485 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
|
---|
1486 | _S_modulus(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
|
---|
1487 | {
|
---|
1488 | if (__builtin_is_constant_evaluated()
|
---|
1489 | || __builtin_constant_p(__y._M_data) || sizeof(_Tp) >= 8)
|
---|
1490 | return _Base::_S_modulus(__x, __y);
|
---|
1491 | else
|
---|
1492 | return _Base::_S_minus(__x, _S_multiplies(__y, _S_divides(__x, __y)));
|
---|
1493 | }
|
---|
1494 |
|
---|
1495 | // }}}
|
---|
1496 | // _S_bit_shift_left {{{
|
---|
1497 | // Notes on UB. C++2a [expr.shift] says:
|
---|
1498 | // -1- [...] The operands shall be of integral or unscoped enumeration type
|
---|
1499 | // and integral promotions are performed. The type of the result is that
|
---|
1500 | // of the promoted left operand. The behavior is undefined if the right
|
---|
1501 | // operand is negative, or greater than or equal to the width of the
|
---|
1502 | // promoted left operand.
|
---|
1503 | // -2- The value of E1 << E2 is the unique value congruent to E1×2^E2 modulo
|
---|
1504 | // 2^N, where N is the width of the type of the result.
|
---|
1505 | //
|
---|
1506 | // C++17 [expr.shift] says:
|
---|
1507 | // -2- The value of E1 << E2 is E1 left-shifted E2 bit positions; vacated
|
---|
1508 | // bits are zero-filled. If E1 has an unsigned type, the value of the
|
---|
1509 | // result is E1 × 2^E2 , reduced modulo one more than the maximum value
|
---|
1510 | // representable in the result type. Otherwise, if E1 has a signed type
|
---|
1511 | // and non-negative value, and E1 × 2^E2 is representable in the
|
---|
1512 | // corresponding unsigned type of the result type, then that value,
|
---|
1513 | // converted to the result type, is the resulting value; otherwise, the
|
---|
1514 | // behavior is undefined.
|
---|
1515 | //
|
---|
1516 | // Consequences:
|
---|
1517 | // With C++2a signed and unsigned types have the same UB
|
---|
1518 | // characteristics:
|
---|
1519 | // - left shift is not UB for 0 <= RHS < max(32, #bits(T))
|
---|
1520 | //
|
---|
1521 | // With C++17 there's little room for optimizations because the standard
|
---|
1522 | // requires all shifts to happen on promoted integrals (i.e. int). Thus,
|
---|
1523 | // short and char shifts must assume shifts affect bits of neighboring
|
---|
1524 | // values.
|
---|
1525 | #ifndef _GLIBCXX_SIMD_NO_SHIFT_OPT
|
---|
1526 | template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
|
---|
1527 | inline _GLIBCXX_CONST static typename _TVT::type
|
---|
1528 | _S_bit_shift_left(_Tp __xx, int __y)
|
---|
1529 | {
|
---|
1530 | using _V = typename _TVT::type;
|
---|
1531 | using _Up = typename _TVT::value_type;
|
---|
1532 | _V __x = __xx;
|
---|
1533 | [[maybe_unused]] const auto __ix = __to_intrin(__x);
|
---|
1534 | if (__builtin_is_constant_evaluated())
|
---|
1535 | return __x << __y;
|
---|
1536 | #if __cplusplus > 201703
|
---|
1537 | // after C++17, signed shifts have no UB, and behave just like unsigned
|
---|
1538 | // shifts
|
---|
1539 | else if constexpr (sizeof(_Up) == 1 && is_signed_v<_Up>)
|
---|
1540 | return __vector_bitcast<_Up>(
|
---|
1541 | _S_bit_shift_left(__vector_bitcast<make_unsigned_t<_Up>>(__x),
|
---|
1542 | __y));
|
---|
1543 | #endif
|
---|
1544 | else if constexpr (sizeof(_Up) == 1)
|
---|
1545 | {
|
---|
1546 | // (cf. https://gcc.gnu.org/bugzilla/show_bug.cgi?id=83894)
|
---|
1547 | if (__builtin_constant_p(__y))
|
---|
1548 | {
|
---|
1549 | if (__y == 0)
|
---|
1550 | return __x;
|
---|
1551 | else if (__y == 1)
|
---|
1552 | return __x + __x;
|
---|
1553 | else if (__y == 2)
|
---|
1554 | {
|
---|
1555 | __x = __x + __x;
|
---|
1556 | return __x + __x;
|
---|
1557 | }
|
---|
1558 | else if (__y > 2 && __y < 8)
|
---|
1559 | {
|
---|
1560 | if constexpr (sizeof(__x) > sizeof(unsigned))
|
---|
1561 | {
|
---|
1562 | const _UChar __mask = 0xff << __y; // precomputed vector
|
---|
1563 | return __vector_bitcast<_Up>(
|
---|
1564 | __vector_bitcast<_UChar>(
|
---|
1565 | __vector_bitcast<unsigned>(__x) << __y)
|
---|
1566 | & __mask);
|
---|
1567 | }
|
---|
1568 | else
|
---|
1569 | {
|
---|
1570 | const unsigned __mask
|
---|
1571 | = (0xff & (0xff << __y)) * 0x01010101u;
|
---|
1572 | return reinterpret_cast<_V>(
|
---|
1573 | static_cast<__int_for_sizeof_t<_V>>(
|
---|
1574 | unsigned(
|
---|
1575 | reinterpret_cast<__int_for_sizeof_t<_V>>(__x)
|
---|
1576 | << __y)
|
---|
1577 | & __mask));
|
---|
1578 | }
|
---|
1579 | }
|
---|
1580 | else if (__y >= 8 && __y < 32)
|
---|
1581 | return _V();
|
---|
1582 | else
|
---|
1583 | __builtin_unreachable();
|
---|
1584 | }
|
---|
1585 | // general strategy in the following: use an sllv instead of sll
|
---|
1586 | // instruction, because it's 2 to 4 times faster:
|
---|
1587 | else if constexpr (__have_avx512bw_vl && sizeof(__x) == 16)
|
---|
1588 | return __vector_bitcast<_Up>(_mm256_cvtepi16_epi8(
|
---|
1589 | _mm256_sllv_epi16(_mm256_cvtepi8_epi16(__ix),
|
---|
1590 | _mm256_set1_epi16(__y))));
|
---|
1591 | else if constexpr (__have_avx512bw && sizeof(__x) == 32)
|
---|
1592 | return __vector_bitcast<_Up>(_mm512_cvtepi16_epi8(
|
---|
1593 | _mm512_sllv_epi16(_mm512_cvtepi8_epi16(__ix),
|
---|
1594 | _mm512_set1_epi16(__y))));
|
---|
1595 | else if constexpr (__have_avx512bw && sizeof(__x) == 64)
|
---|
1596 | {
|
---|
1597 | const auto __shift = _mm512_set1_epi16(__y);
|
---|
1598 | return __vector_bitcast<_Up>(
|
---|
1599 | __concat(_mm512_cvtepi16_epi8(_mm512_sllv_epi16(
|
---|
1600 | _mm512_cvtepi8_epi16(__lo256(__ix)), __shift)),
|
---|
1601 | _mm512_cvtepi16_epi8(_mm512_sllv_epi16(
|
---|
1602 | _mm512_cvtepi8_epi16(__hi256(__ix)), __shift))));
|
---|
1603 | }
|
---|
1604 | else if constexpr (__have_avx2 && sizeof(__x) == 32)
|
---|
1605 | {
|
---|
1606 | #if 1
|
---|
1607 | const auto __shift = _mm_cvtsi32_si128(__y);
|
---|
1608 | auto __k
|
---|
1609 | = _mm256_sll_epi16(_mm256_slli_epi16(~__m256i(), 8), __shift);
|
---|
1610 | __k |= _mm256_srli_epi16(__k, 8);
|
---|
1611 | return __vector_bitcast<_Up>(_mm256_sll_epi32(__ix, __shift)
|
---|
1612 | & __k);
|
---|
1613 | #else
|
---|
1614 | const _Up __k = 0xff << __y;
|
---|
1615 | return __vector_bitcast<_Up>(__vector_bitcast<int>(__x) << __y)
|
---|
1616 | & __k;
|
---|
1617 | #endif
|
---|
1618 | }
|
---|
1619 | else
|
---|
1620 | {
|
---|
1621 | const auto __shift = _mm_cvtsi32_si128(__y);
|
---|
1622 | auto __k
|
---|
1623 | = _mm_sll_epi16(_mm_slli_epi16(~__m128i(), 8), __shift);
|
---|
1624 | __k |= _mm_srli_epi16(__k, 8);
|
---|
1625 | return __intrin_bitcast<_V>(_mm_sll_epi16(__ix, __shift) & __k);
|
---|
1626 | }
|
---|
1627 | }
|
---|
1628 | return __x << __y;
|
---|
1629 | }
|
---|
1630 |
|
---|
1631 | template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
|
---|
1632 | inline _GLIBCXX_CONST static typename _TVT::type
|
---|
1633 | _S_bit_shift_left(_Tp __xx, typename _TVT::type __y)
|
---|
1634 | {
|
---|
1635 | using _V = typename _TVT::type;
|
---|
1636 | using _Up = typename _TVT::value_type;
|
---|
1637 | _V __x = __xx;
|
---|
1638 | [[maybe_unused]] const auto __ix = __to_intrin(__x);
|
---|
1639 | [[maybe_unused]] const auto __iy = __to_intrin(__y);
|
---|
1640 | if (__builtin_is_constant_evaluated())
|
---|
1641 | return __x << __y;
|
---|
1642 | #if __cplusplus > 201703
|
---|
1643 | // after C++17, signed shifts have no UB, and behave just like unsigned
|
---|
1644 | // shifts
|
---|
1645 | else if constexpr (is_signed_v<_Up>)
|
---|
1646 | return __vector_bitcast<_Up>(
|
---|
1647 | _S_bit_shift_left(__vector_bitcast<make_unsigned_t<_Up>>(__x),
|
---|
1648 | __vector_bitcast<make_unsigned_t<_Up>>(__y)));
|
---|
1649 | #endif
|
---|
1650 | else if constexpr (sizeof(_Up) == 1)
|
---|
1651 | {
|
---|
1652 | if constexpr (sizeof __ix == 64 && __have_avx512bw)
|
---|
1653 | return __vector_bitcast<_Up>(__concat(
|
---|
1654 | _mm512_cvtepi16_epi8(
|
---|
1655 | _mm512_sllv_epi16(_mm512_cvtepu8_epi16(__lo256(__ix)),
|
---|
1656 | _mm512_cvtepu8_epi16(__lo256(__iy)))),
|
---|
1657 | _mm512_cvtepi16_epi8(
|
---|
1658 | _mm512_sllv_epi16(_mm512_cvtepu8_epi16(__hi256(__ix)),
|
---|
1659 | _mm512_cvtepu8_epi16(__hi256(__iy))))));
|
---|
1660 | else if constexpr (sizeof __ix == 32 && __have_avx512bw)
|
---|
1661 | return __vector_bitcast<_Up>(_mm512_cvtepi16_epi8(
|
---|
1662 | _mm512_sllv_epi16(_mm512_cvtepu8_epi16(__ix),
|
---|
1663 | _mm512_cvtepu8_epi16(__iy))));
|
---|
1664 | else if constexpr (sizeof __x <= 8 && __have_avx512bw_vl)
|
---|
1665 | return __intrin_bitcast<_V>(
|
---|
1666 | _mm_cvtepi16_epi8(_mm_sllv_epi16(_mm_cvtepu8_epi16(__ix),
|
---|
1667 | _mm_cvtepu8_epi16(__iy))));
|
---|
1668 | else if constexpr (sizeof __ix == 16 && __have_avx512bw_vl)
|
---|
1669 | return __intrin_bitcast<_V>(_mm256_cvtepi16_epi8(
|
---|
1670 | _mm256_sllv_epi16(_mm256_cvtepu8_epi16(__ix),
|
---|
1671 | _mm256_cvtepu8_epi16(__iy))));
|
---|
1672 | else if constexpr (sizeof __ix == 16 && __have_avx512bw)
|
---|
1673 | return __intrin_bitcast<_V>(
|
---|
1674 | __lo128(_mm512_cvtepi16_epi8(_mm512_sllv_epi16(
|
---|
1675 | _mm512_cvtepu8_epi16(_mm256_castsi128_si256(__ix)),
|
---|
1676 | _mm512_cvtepu8_epi16(_mm256_castsi128_si256(__iy))))));
|
---|
1677 | else if constexpr (__have_sse4_1 && sizeof(__x) == 16)
|
---|
1678 | {
|
---|
1679 | auto __mask
|
---|
1680 | = __vector_bitcast<_Up>(__vector_bitcast<short>(__y) << 5);
|
---|
1681 | auto __x4
|
---|
1682 | = __vector_bitcast<_Up>(__vector_bitcast<short>(__x) << 4);
|
---|
1683 | __x4 &= char(0xf0);
|
---|
1684 | __x = reinterpret_cast<_V>(_CommonImplX86::_S_blend_intrin(
|
---|
1685 | __to_intrin(__mask), __to_intrin(__x), __to_intrin(__x4)));
|
---|
1686 | __mask += __mask;
|
---|
1687 | auto __x2
|
---|
1688 | = __vector_bitcast<_Up>(__vector_bitcast<short>(__x) << 2);
|
---|
1689 | __x2 &= char(0xfc);
|
---|
1690 | __x = reinterpret_cast<_V>(_CommonImplX86::_S_blend_intrin(
|
---|
1691 | __to_intrin(__mask), __to_intrin(__x), __to_intrin(__x2)));
|
---|
1692 | __mask += __mask;
|
---|
1693 | auto __x1 = __x + __x;
|
---|
1694 | __x = reinterpret_cast<_V>(_CommonImplX86::_S_blend_intrin(
|
---|
1695 | __to_intrin(__mask), __to_intrin(__x), __to_intrin(__x1)));
|
---|
1696 | return __x
|
---|
1697 | & ((__y & char(0xf8)) == 0); // y > 7 nulls the result
|
---|
1698 | }
|
---|
1699 | else if constexpr (sizeof(__x) == 16)
|
---|
1700 | {
|
---|
1701 | auto __mask
|
---|
1702 | = __vector_bitcast<_UChar>(__vector_bitcast<short>(__y) << 5);
|
---|
1703 | auto __x4
|
---|
1704 | = __vector_bitcast<_Up>(__vector_bitcast<short>(__x) << 4);
|
---|
1705 | __x4 &= char(0xf0);
|
---|
1706 | __x = __vector_bitcast<_SChar>(__mask) < 0 ? __x4 : __x;
|
---|
1707 | __mask += __mask;
|
---|
1708 | auto __x2
|
---|
1709 | = __vector_bitcast<_Up>(__vector_bitcast<short>(__x) << 2);
|
---|
1710 | __x2 &= char(0xfc);
|
---|
1711 | __x = __vector_bitcast<_SChar>(__mask) < 0 ? __x2 : __x;
|
---|
1712 | __mask += __mask;
|
---|
1713 | auto __x1 = __x + __x;
|
---|
1714 | __x = __vector_bitcast<_SChar>(__mask) < 0 ? __x1 : __x;
|
---|
1715 | return __x
|
---|
1716 | & ((__y & char(0xf8)) == 0); // y > 7 nulls the result
|
---|
1717 | }
|
---|
1718 | else
|
---|
1719 | return __x << __y;
|
---|
1720 | }
|
---|
1721 | else if constexpr (sizeof(_Up) == 2)
|
---|
1722 | {
|
---|
1723 | if constexpr (sizeof __ix == 64 && __have_avx512bw)
|
---|
1724 | return __vector_bitcast<_Up>(_mm512_sllv_epi16(__ix, __iy));
|
---|
1725 | else if constexpr (sizeof __ix == 32 && __have_avx512bw_vl)
|
---|
1726 | return __vector_bitcast<_Up>(_mm256_sllv_epi16(__ix, __iy));
|
---|
1727 | else if constexpr (sizeof __ix == 32 && __have_avx512bw)
|
---|
1728 | return __vector_bitcast<_Up>(
|
---|
1729 | __lo256(_mm512_sllv_epi16(_mm512_castsi256_si512(__ix),
|
---|
1730 | _mm512_castsi256_si512(__iy))));
|
---|
1731 | else if constexpr (sizeof __ix == 32 && __have_avx2)
|
---|
1732 | {
|
---|
1733 | const auto __ux = __vector_bitcast<unsigned>(__x);
|
---|
1734 | const auto __uy = __vector_bitcast<unsigned>(__y);
|
---|
1735 | return __vector_bitcast<_Up>(_mm256_blend_epi16(
|
---|
1736 | __auto_bitcast(__ux << (__uy & 0x0000ffffu)),
|
---|
1737 | __auto_bitcast((__ux & 0xffff0000u) << (__uy >> 16)), 0xaa));
|
---|
1738 | }
|
---|
1739 | else if constexpr (sizeof __ix == 16 && __have_avx512bw_vl)
|
---|
1740 | return __intrin_bitcast<_V>(_mm_sllv_epi16(__ix, __iy));
|
---|
1741 | else if constexpr (sizeof __ix == 16 && __have_avx512bw)
|
---|
1742 | return __intrin_bitcast<_V>(
|
---|
1743 | __lo128(_mm512_sllv_epi16(_mm512_castsi128_si512(__ix),
|
---|
1744 | _mm512_castsi128_si512(__iy))));
|
---|
1745 | else if constexpr (sizeof __ix == 16 && __have_avx2)
|
---|
1746 | {
|
---|
1747 | const auto __ux = __vector_bitcast<unsigned>(__ix);
|
---|
1748 | const auto __uy = __vector_bitcast<unsigned>(__iy);
|
---|
1749 | return __intrin_bitcast<_V>(_mm_blend_epi16(
|
---|
1750 | __auto_bitcast(__ux << (__uy & 0x0000ffffu)),
|
---|
1751 | __auto_bitcast((__ux & 0xffff0000u) << (__uy >> 16)), 0xaa));
|
---|
1752 | }
|
---|
1753 | else if constexpr (sizeof __ix == 16)
|
---|
1754 | {
|
---|
1755 | using _Float4 = __vector_type_t<float, 4>;
|
---|
1756 | using _Int4 = __vector_type_t<int, 4>;
|
---|
1757 | using _UInt4 = __vector_type_t<unsigned, 4>;
|
---|
1758 | const _UInt4 __yu
|
---|
1759 | = reinterpret_cast<_UInt4>(__to_intrin(__y + (0x3f8 >> 3)));
|
---|
1760 | return __x
|
---|
1761 | * __intrin_bitcast<_V>(
|
---|
1762 | __vector_convert<_Int4>(_SimdWrapper<float, 4>(
|
---|
1763 | reinterpret_cast<_Float4>(__yu << 23)))
|
---|
1764 | | (__vector_convert<_Int4>(_SimdWrapper<float, 4>(
|
---|
1765 | reinterpret_cast<_Float4>((__yu >> 16) << 23)))
|
---|
1766 | << 16));
|
---|
1767 | }
|
---|
1768 | else
|
---|
1769 | __assert_unreachable<_Tp>();
|
---|
1770 | }
|
---|
1771 | else if constexpr (sizeof(_Up) == 4 && sizeof __ix == 16
|
---|
1772 | && !__have_avx2)
|
---|
1773 | // latency is suboptimal, but throughput is at full speedup
|
---|
1774 | return __intrin_bitcast<_V>(
|
---|
1775 | __vector_bitcast<unsigned>(__ix)
|
---|
1776 | * __vector_convert<__vector_type16_t<int>>(
|
---|
1777 | _SimdWrapper<float, 4>(__vector_bitcast<float>(
|
---|
1778 | (__vector_bitcast<unsigned, 4>(__y) << 23) + 0x3f80'0000))));
|
---|
1779 | else if constexpr (sizeof(_Up) == 8 && sizeof __ix == 16
|
---|
1780 | && !__have_avx2)
|
---|
1781 | {
|
---|
1782 | const auto __lo = _mm_sll_epi64(__ix, __iy);
|
---|
1783 | const auto __hi
|
---|
1784 | = _mm_sll_epi64(__ix, _mm_unpackhi_epi64(__iy, __iy));
|
---|
1785 | if constexpr (__have_sse4_1)
|
---|
1786 | return __vector_bitcast<_Up>(_mm_blend_epi16(__lo, __hi, 0xf0));
|
---|
1787 | else
|
---|
1788 | return __vector_bitcast<_Up>(
|
---|
1789 | _mm_move_sd(__vector_bitcast<double>(__hi),
|
---|
1790 | __vector_bitcast<double>(__lo)));
|
---|
1791 | }
|
---|
1792 | else
|
---|
1793 | return __x << __y;
|
---|
1794 | }
|
---|
1795 | #endif // _GLIBCXX_SIMD_NO_SHIFT_OPT
|
---|
1796 |
|
---|
1797 | // }}}
|
---|
1798 | // _S_bit_shift_right {{{
|
---|
1799 | #ifndef _GLIBCXX_SIMD_NO_SHIFT_OPT
|
---|
1800 | template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
|
---|
1801 | inline _GLIBCXX_CONST static typename _TVT::type
|
---|
1802 | _S_bit_shift_right(_Tp __xx, int __y)
|
---|
1803 | {
|
---|
1804 | using _V = typename _TVT::type;
|
---|
1805 | using _Up = typename _TVT::value_type;
|
---|
1806 | _V __x = __xx;
|
---|
1807 | [[maybe_unused]] const auto __ix = __to_intrin(__x);
|
---|
1808 | if (__builtin_is_constant_evaluated())
|
---|
1809 | return __x >> __y;
|
---|
1810 | else if (__builtin_constant_p(__y)
|
---|
1811 | && is_unsigned_v<
|
---|
1812 | _Up> && __y >= int(sizeof(_Up) * __CHAR_BIT__))
|
---|
1813 | return _V();
|
---|
1814 | else if constexpr (sizeof(_Up) == 1 && is_unsigned_v<_Up>) //{{{
|
---|
1815 | return __intrin_bitcast<_V>(__vector_bitcast<_UShort>(__ix) >> __y)
|
---|
1816 | & _Up(0xff >> __y);
|
---|
1817 | //}}}
|
---|
1818 | else if constexpr (sizeof(_Up) == 1 && is_signed_v<_Up>) //{{{
|
---|
1819 | return __intrin_bitcast<_V>(
|
---|
1820 | (__vector_bitcast<_UShort>(__vector_bitcast<short>(__ix)
|
---|
1821 | >> (__y + 8))
|
---|
1822 | << 8)
|
---|
1823 | | (__vector_bitcast<_UShort>(
|
---|
1824 | __vector_bitcast<short>(__vector_bitcast<_UShort>(__ix) << 8)
|
---|
1825 | >> __y)
|
---|
1826 | >> 8));
|
---|
1827 | //}}}
|
---|
1828 | // GCC optimizes sizeof == 2, 4, and unsigned 8 as expected
|
---|
1829 | else if constexpr (sizeof(_Up) == 8 && is_signed_v<_Up>) //{{{
|
---|
1830 | {
|
---|
1831 | if (__y > 32)
|
---|
1832 | return (__intrin_bitcast<_V>(__vector_bitcast<int>(__ix) >> 32)
|
---|
1833 | & _Up(0xffff'ffff'0000'0000ull))
|
---|
1834 | | __vector_bitcast<_Up>(
|
---|
1835 | __vector_bitcast<int>(__vector_bitcast<_ULLong>(__ix)
|
---|
1836 | >> 32)
|
---|
1837 | >> (__y - 32));
|
---|
1838 | else
|
---|
1839 | return __intrin_bitcast<_V>(__vector_bitcast<_ULLong>(__ix)
|
---|
1840 | >> __y)
|
---|
1841 | | __vector_bitcast<_Up>(
|
---|
1842 | __vector_bitcast<int>(__ix & -0x8000'0000'0000'0000ll)
|
---|
1843 | >> __y);
|
---|
1844 | }
|
---|
1845 | //}}}
|
---|
1846 | else
|
---|
1847 | return __x >> __y;
|
---|
1848 | }
|
---|
1849 |
|
---|
1850 | template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
|
---|
1851 | inline _GLIBCXX_CONST static typename _TVT::type
|
---|
1852 | _S_bit_shift_right(_Tp __xx, typename _TVT::type __y)
|
---|
1853 | {
|
---|
1854 | using _V = typename _TVT::type;
|
---|
1855 | using _Up = typename _TVT::value_type;
|
---|
1856 | _V __x = __xx;
|
---|
1857 | [[maybe_unused]] const auto __ix = __to_intrin(__x);
|
---|
1858 | [[maybe_unused]] const auto __iy = __to_intrin(__y);
|
---|
1859 | if (__builtin_is_constant_evaluated()
|
---|
1860 | || (__builtin_constant_p(__x) && __builtin_constant_p(__y)))
|
---|
1861 | return __x >> __y;
|
---|
1862 | else if constexpr (sizeof(_Up) == 1) //{{{
|
---|
1863 | {
|
---|
1864 | if constexpr (sizeof(__x) <= 8 && __have_avx512bw_vl)
|
---|
1865 | return __intrin_bitcast<_V>(_mm_cvtepi16_epi8(
|
---|
1866 | is_signed_v<_Up> ? _mm_srav_epi16(_mm_cvtepi8_epi16(__ix),
|
---|
1867 | _mm_cvtepi8_epi16(__iy))
|
---|
1868 | : _mm_srlv_epi16(_mm_cvtepu8_epi16(__ix),
|
---|
1869 | _mm_cvtepu8_epi16(__iy))));
|
---|
1870 | if constexpr (sizeof(__x) == 16 && __have_avx512bw_vl)
|
---|
1871 | return __intrin_bitcast<_V>(_mm256_cvtepi16_epi8(
|
---|
1872 | is_signed_v<_Up>
|
---|
1873 | ? _mm256_srav_epi16(_mm256_cvtepi8_epi16(__ix),
|
---|
1874 | _mm256_cvtepi8_epi16(__iy))
|
---|
1875 | : _mm256_srlv_epi16(_mm256_cvtepu8_epi16(__ix),
|
---|
1876 | _mm256_cvtepu8_epi16(__iy))));
|
---|
1877 | else if constexpr (sizeof(__x) == 32 && __have_avx512bw)
|
---|
1878 | return __vector_bitcast<_Up>(_mm512_cvtepi16_epi8(
|
---|
1879 | is_signed_v<_Up>
|
---|
1880 | ? _mm512_srav_epi16(_mm512_cvtepi8_epi16(__ix),
|
---|
1881 | _mm512_cvtepi8_epi16(__iy))
|
---|
1882 | : _mm512_srlv_epi16(_mm512_cvtepu8_epi16(__ix),
|
---|
1883 | _mm512_cvtepu8_epi16(__iy))));
|
---|
1884 | else if constexpr (sizeof(__x) == 64 && is_signed_v<_Up>)
|
---|
1885 | return __vector_bitcast<_Up>(_mm512_mask_mov_epi8(
|
---|
1886 | _mm512_srav_epi16(__ix, _mm512_srli_epi16(__iy, 8)),
|
---|
1887 | 0x5555'5555'5555'5555ull,
|
---|
1888 | _mm512_srav_epi16(
|
---|
1889 | _mm512_slli_epi16(__ix, 8),
|
---|
1890 | _mm512_maskz_add_epi8(0x5555'5555'5555'5555ull, __iy,
|
---|
1891 | _mm512_set1_epi16(8)))));
|
---|
1892 | else if constexpr (sizeof(__x) == 64 && is_unsigned_v<_Up>)
|
---|
1893 | return __vector_bitcast<_Up>(_mm512_mask_mov_epi8(
|
---|
1894 | _mm512_srlv_epi16(__ix, _mm512_srli_epi16(__iy, 8)),
|
---|
1895 | 0x5555'5555'5555'5555ull,
|
---|
1896 | _mm512_srlv_epi16(
|
---|
1897 | _mm512_maskz_mov_epi8(0x5555'5555'5555'5555ull, __ix),
|
---|
1898 | _mm512_maskz_mov_epi8(0x5555'5555'5555'5555ull, __iy))));
|
---|
1899 | /* This has better throughput but higher latency than the impl below
|
---|
1900 | else if constexpr (__have_avx2 && sizeof(__x) == 16 &&
|
---|
1901 | is_unsigned_v<_Up>)
|
---|
1902 | {
|
---|
1903 | const auto __shorts = __to_intrin(_S_bit_shift_right(
|
---|
1904 | __vector_bitcast<_UShort>(_mm256_cvtepu8_epi16(__ix)),
|
---|
1905 | __vector_bitcast<_UShort>(_mm256_cvtepu8_epi16(__iy))));
|
---|
1906 | return __vector_bitcast<_Up>(
|
---|
1907 | _mm_packus_epi16(__lo128(__shorts), __hi128(__shorts)));
|
---|
1908 | }
|
---|
1909 | */
|
---|
1910 | else if constexpr (__have_avx2 && sizeof(__x) > 8)
|
---|
1911 | // the following uses vpsr[al]vd, which requires AVX2
|
---|
1912 | if constexpr (is_signed_v<_Up>)
|
---|
1913 | {
|
---|
1914 | const auto r3 = __vector_bitcast<_UInt>(
|
---|
1915 | (__vector_bitcast<int>(__x)
|
---|
1916 | >> (__vector_bitcast<_UInt>(__y) >> 24)))
|
---|
1917 | & 0xff000000u;
|
---|
1918 | const auto r2
|
---|
1919 | = __vector_bitcast<_UInt>(
|
---|
1920 | ((__vector_bitcast<int>(__x) << 8)
|
---|
1921 | >> ((__vector_bitcast<_UInt>(__y) << 8) >> 24)))
|
---|
1922 | & 0xff000000u;
|
---|
1923 | const auto r1
|
---|
1924 | = __vector_bitcast<_UInt>(
|
---|
1925 | ((__vector_bitcast<int>(__x) << 16)
|
---|
1926 | >> ((__vector_bitcast<_UInt>(__y) << 16) >> 24)))
|
---|
1927 | & 0xff000000u;
|
---|
1928 | const auto r0 = __vector_bitcast<_UInt>(
|
---|
1929 | (__vector_bitcast<int>(__x) << 24)
|
---|
1930 | >> ((__vector_bitcast<_UInt>(__y) << 24) >> 24));
|
---|
1931 | return __vector_bitcast<_Up>(r3 | (r2 >> 8) | (r1 >> 16)
|
---|
1932 | | (r0 >> 24));
|
---|
1933 | }
|
---|
1934 | else
|
---|
1935 | {
|
---|
1936 | const auto r3 = (__vector_bitcast<_UInt>(__x)
|
---|
1937 | >> (__vector_bitcast<_UInt>(__y) >> 24))
|
---|
1938 | & 0xff000000u;
|
---|
1939 | const auto r2
|
---|
1940 | = ((__vector_bitcast<_UInt>(__x) << 8)
|
---|
1941 | >> ((__vector_bitcast<_UInt>(__y) << 8) >> 24))
|
---|
1942 | & 0xff000000u;
|
---|
1943 | const auto r1
|
---|
1944 | = ((__vector_bitcast<_UInt>(__x) << 16)
|
---|
1945 | >> ((__vector_bitcast<_UInt>(__y) << 16) >> 24))
|
---|
1946 | & 0xff000000u;
|
---|
1947 | const auto r0
|
---|
1948 | = (__vector_bitcast<_UInt>(__x) << 24)
|
---|
1949 | >> ((__vector_bitcast<_UInt>(__y) << 24) >> 24);
|
---|
1950 | return __vector_bitcast<_Up>(r3 | (r2 >> 8) | (r1 >> 16)
|
---|
1951 | | (r0 >> 24));
|
---|
1952 | }
|
---|
1953 | else if constexpr (__have_sse4_1
|
---|
1954 | && is_unsigned_v<_Up> && sizeof(__x) > 2)
|
---|
1955 | {
|
---|
1956 | auto __x128 = __vector_bitcast<_Up>(__ix);
|
---|
1957 | auto __mask
|
---|
1958 | = __vector_bitcast<_Up>(__vector_bitcast<_UShort>(__iy) << 5);
|
---|
1959 | auto __x4 = __vector_bitcast<_Up>(
|
---|
1960 | (__vector_bitcast<_UShort>(__x128) >> 4) & _UShort(0xff0f));
|
---|
1961 | __x128 = __vector_bitcast<_Up>(_CommonImplX86::_S_blend_intrin(
|
---|
1962 | __to_intrin(__mask), __to_intrin(__x128), __to_intrin(__x4)));
|
---|
1963 | __mask += __mask;
|
---|
1964 | auto __x2 = __vector_bitcast<_Up>(
|
---|
1965 | (__vector_bitcast<_UShort>(__x128) >> 2) & _UShort(0xff3f));
|
---|
1966 | __x128 = __vector_bitcast<_Up>(_CommonImplX86::_S_blend_intrin(
|
---|
1967 | __to_intrin(__mask), __to_intrin(__x128), __to_intrin(__x2)));
|
---|
1968 | __mask += __mask;
|
---|
1969 | auto __x1 = __vector_bitcast<_Up>(
|
---|
1970 | (__vector_bitcast<_UShort>(__x128) >> 1) & _UShort(0xff7f));
|
---|
1971 | __x128 = __vector_bitcast<_Up>(_CommonImplX86::_S_blend_intrin(
|
---|
1972 | __to_intrin(__mask), __to_intrin(__x128), __to_intrin(__x1)));
|
---|
1973 | return __intrin_bitcast<_V>(
|
---|
1974 | __x128
|
---|
1975 | & ((__vector_bitcast<_Up>(__iy) & char(0xf8))
|
---|
1976 | == 0)); // y > 7 nulls the result
|
---|
1977 | }
|
---|
1978 | else if constexpr (__have_sse4_1
|
---|
1979 | && is_signed_v<_Up> && sizeof(__x) > 2)
|
---|
1980 | {
|
---|
1981 | auto __mask = __vector_bitcast<_UChar>(
|
---|
1982 | __vector_bitcast<_UShort>(__iy) << 5);
|
---|
1983 | auto __maskl = [&]() {
|
---|
1984 | return __to_intrin(__vector_bitcast<_UShort>(__mask) << 8);
|
---|
1985 | };
|
---|
1986 | auto __xh = __vector_bitcast<short>(__ix);
|
---|
1987 | auto __xl = __vector_bitcast<short>(__ix) << 8;
|
---|
1988 | auto __xh4 = __xh >> 4;
|
---|
1989 | auto __xl4 = __xl >> 4;
|
---|
1990 | __xh = __vector_bitcast<short>(_CommonImplX86::_S_blend_intrin(
|
---|
1991 | __to_intrin(__mask), __to_intrin(__xh), __to_intrin(__xh4)));
|
---|
1992 | __xl = __vector_bitcast<short>(
|
---|
1993 | _CommonImplX86::_S_blend_intrin(__maskl(), __to_intrin(__xl),
|
---|
1994 | __to_intrin(__xl4)));
|
---|
1995 | __mask += __mask;
|
---|
1996 | auto __xh2 = __xh >> 2;
|
---|
1997 | auto __xl2 = __xl >> 2;
|
---|
1998 | __xh = __vector_bitcast<short>(_CommonImplX86::_S_blend_intrin(
|
---|
1999 | __to_intrin(__mask), __to_intrin(__xh), __to_intrin(__xh2)));
|
---|
2000 | __xl = __vector_bitcast<short>(
|
---|
2001 | _CommonImplX86::_S_blend_intrin(__maskl(), __to_intrin(__xl),
|
---|
2002 | __to_intrin(__xl2)));
|
---|
2003 | __mask += __mask;
|
---|
2004 | auto __xh1 = __xh >> 1;
|
---|
2005 | auto __xl1 = __xl >> 1;
|
---|
2006 | __xh = __vector_bitcast<short>(_CommonImplX86::_S_blend_intrin(
|
---|
2007 | __to_intrin(__mask), __to_intrin(__xh), __to_intrin(__xh1)));
|
---|
2008 | __xl = __vector_bitcast<short>(
|
---|
2009 | _CommonImplX86::_S_blend_intrin(__maskl(), __to_intrin(__xl),
|
---|
2010 | __to_intrin(__xl1)));
|
---|
2011 | return __intrin_bitcast<_V>(
|
---|
2012 | (__vector_bitcast<_Up>((__xh & short(0xff00)))
|
---|
2013 | | __vector_bitcast<_Up>(__vector_bitcast<_UShort>(__xl)
|
---|
2014 | >> 8))
|
---|
2015 | & ((__vector_bitcast<_Up>(__iy) & char(0xf8))
|
---|
2016 | == 0)); // y > 7 nulls the result
|
---|
2017 | }
|
---|
2018 | else if constexpr (is_unsigned_v<_Up> && sizeof(__x) > 2) // SSE2
|
---|
2019 | {
|
---|
2020 | auto __mask
|
---|
2021 | = __vector_bitcast<_Up>(__vector_bitcast<_UShort>(__y) << 5);
|
---|
2022 | auto __x4 = __vector_bitcast<_Up>(
|
---|
2023 | (__vector_bitcast<_UShort>(__x) >> 4) & _UShort(0xff0f));
|
---|
2024 | __x = __mask > 0x7f ? __x4 : __x;
|
---|
2025 | __mask += __mask;
|
---|
2026 | auto __x2 = __vector_bitcast<_Up>(
|
---|
2027 | (__vector_bitcast<_UShort>(__x) >> 2) & _UShort(0xff3f));
|
---|
2028 | __x = __mask > 0x7f ? __x2 : __x;
|
---|
2029 | __mask += __mask;
|
---|
2030 | auto __x1 = __vector_bitcast<_Up>(
|
---|
2031 | (__vector_bitcast<_UShort>(__x) >> 1) & _UShort(0xff7f));
|
---|
2032 | __x = __mask > 0x7f ? __x1 : __x;
|
---|
2033 | return __x
|
---|
2034 | & ((__y & char(0xf8)) == 0); // y > 7 nulls the result
|
---|
2035 | }
|
---|
2036 | else if constexpr (sizeof(__x) > 2) // signed SSE2
|
---|
2037 | {
|
---|
2038 | static_assert(is_signed_v<_Up>);
|
---|
2039 | auto __maskh = __vector_bitcast<_UShort>(__y) << 5;
|
---|
2040 | auto __maskl = __vector_bitcast<_UShort>(__y) << (5 + 8);
|
---|
2041 | auto __xh = __vector_bitcast<short>(__x);
|
---|
2042 | auto __xl = __vector_bitcast<short>(__x) << 8;
|
---|
2043 | auto __xh4 = __xh >> 4;
|
---|
2044 | auto __xl4 = __xl >> 4;
|
---|
2045 | __xh = __maskh > 0x7fff ? __xh4 : __xh;
|
---|
2046 | __xl = __maskl > 0x7fff ? __xl4 : __xl;
|
---|
2047 | __maskh += __maskh;
|
---|
2048 | __maskl += __maskl;
|
---|
2049 | auto __xh2 = __xh >> 2;
|
---|
2050 | auto __xl2 = __xl >> 2;
|
---|
2051 | __xh = __maskh > 0x7fff ? __xh2 : __xh;
|
---|
2052 | __xl = __maskl > 0x7fff ? __xl2 : __xl;
|
---|
2053 | __maskh += __maskh;
|
---|
2054 | __maskl += __maskl;
|
---|
2055 | auto __xh1 = __xh >> 1;
|
---|
2056 | auto __xl1 = __xl >> 1;
|
---|
2057 | __xh = __maskh > 0x7fff ? __xh1 : __xh;
|
---|
2058 | __xl = __maskl > 0x7fff ? __xl1 : __xl;
|
---|
2059 | __x = __vector_bitcast<_Up>((__xh & short(0xff00)))
|
---|
2060 | | __vector_bitcast<_Up>(__vector_bitcast<_UShort>(__xl)
|
---|
2061 | >> 8);
|
---|
2062 | return __x
|
---|
2063 | & ((__y & char(0xf8)) == 0); // y > 7 nulls the result
|
---|
2064 | }
|
---|
2065 | else
|
---|
2066 | return __x >> __y;
|
---|
2067 | } //}}}
|
---|
2068 | else if constexpr (sizeof(_Up) == 2 && sizeof(__x) >= 4) //{{{
|
---|
2069 | {
|
---|
2070 | [[maybe_unused]] auto __blend_0xaa = [](auto __a, auto __b) {
|
---|
2071 | if constexpr (sizeof(__a) == 16)
|
---|
2072 | return _mm_blend_epi16(__to_intrin(__a), __to_intrin(__b),
|
---|
2073 | 0xaa);
|
---|
2074 | else if constexpr (sizeof(__a) == 32)
|
---|
2075 | return _mm256_blend_epi16(__to_intrin(__a), __to_intrin(__b),
|
---|
2076 | 0xaa);
|
---|
2077 | else if constexpr (sizeof(__a) == 64)
|
---|
2078 | return _mm512_mask_blend_epi16(0xaaaa'aaaaU, __to_intrin(__a),
|
---|
2079 | __to_intrin(__b));
|
---|
2080 | else
|
---|
2081 | __assert_unreachable<decltype(__a)>();
|
---|
2082 | };
|
---|
2083 | if constexpr (__have_avx512bw_vl && sizeof(_Tp) <= 16)
|
---|
2084 | return __intrin_bitcast<_V>(is_signed_v<_Up>
|
---|
2085 | ? _mm_srav_epi16(__ix, __iy)
|
---|
2086 | : _mm_srlv_epi16(__ix, __iy));
|
---|
2087 | else if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 32)
|
---|
2088 | return __vector_bitcast<_Up>(is_signed_v<_Up>
|
---|
2089 | ? _mm256_srav_epi16(__ix, __iy)
|
---|
2090 | : _mm256_srlv_epi16(__ix, __iy));
|
---|
2091 | else if constexpr (__have_avx512bw && sizeof(_Tp) == 64)
|
---|
2092 | return __vector_bitcast<_Up>(is_signed_v<_Up>
|
---|
2093 | ? _mm512_srav_epi16(__ix, __iy)
|
---|
2094 | : _mm512_srlv_epi16(__ix, __iy));
|
---|
2095 | else if constexpr (__have_avx2 && is_signed_v<_Up>)
|
---|
2096 | return __intrin_bitcast<_V>(
|
---|
2097 | __blend_0xaa(((__vector_bitcast<int>(__ix) << 16)
|
---|
2098 | >> (__vector_bitcast<int>(__iy) & 0xffffu))
|
---|
2099 | >> 16,
|
---|
2100 | __vector_bitcast<int>(__ix)
|
---|
2101 | >> (__vector_bitcast<int>(__iy) >> 16)));
|
---|
2102 | else if constexpr (__have_avx2 && is_unsigned_v<_Up>)
|
---|
2103 | return __intrin_bitcast<_V>(
|
---|
2104 | __blend_0xaa((__vector_bitcast<_UInt>(__ix) & 0xffffu)
|
---|
2105 | >> (__vector_bitcast<_UInt>(__iy) & 0xffffu),
|
---|
2106 | __vector_bitcast<_UInt>(__ix)
|
---|
2107 | >> (__vector_bitcast<_UInt>(__iy) >> 16)));
|
---|
2108 | else if constexpr (__have_sse4_1)
|
---|
2109 | {
|
---|
2110 | auto __mask = __vector_bitcast<_UShort>(__iy);
|
---|
2111 | auto __x128 = __vector_bitcast<_Up>(__ix);
|
---|
2112 | //__mask *= 0x0808;
|
---|
2113 | __mask = (__mask << 3) | (__mask << 11);
|
---|
2114 | // do __x128 = 0 where __y[4] is set
|
---|
2115 | __x128 = __vector_bitcast<_Up>(
|
---|
2116 | _mm_blendv_epi8(__to_intrin(__x128), __m128i(),
|
---|
2117 | __to_intrin(__mask)));
|
---|
2118 | // do __x128 =>> 8 where __y[3] is set
|
---|
2119 | __x128 = __vector_bitcast<_Up>(
|
---|
2120 | _mm_blendv_epi8(__to_intrin(__x128), __to_intrin(__x128 >> 8),
|
---|
2121 | __to_intrin(__mask += __mask)));
|
---|
2122 | // do __x128 =>> 4 where __y[2] is set
|
---|
2123 | __x128 = __vector_bitcast<_Up>(
|
---|
2124 | _mm_blendv_epi8(__to_intrin(__x128), __to_intrin(__x128 >> 4),
|
---|
2125 | __to_intrin(__mask += __mask)));
|
---|
2126 | // do __x128 =>> 2 where __y[1] is set
|
---|
2127 | __x128 = __vector_bitcast<_Up>(
|
---|
2128 | _mm_blendv_epi8(__to_intrin(__x128), __to_intrin(__x128 >> 2),
|
---|
2129 | __to_intrin(__mask += __mask)));
|
---|
2130 | // do __x128 =>> 1 where __y[0] is set
|
---|
2131 | return __intrin_bitcast<_V>(
|
---|
2132 | _mm_blendv_epi8(__to_intrin(__x128), __to_intrin(__x128 >> 1),
|
---|
2133 | __to_intrin(__mask + __mask)));
|
---|
2134 | }
|
---|
2135 | else
|
---|
2136 | {
|
---|
2137 | auto __k = __vector_bitcast<_UShort>(__iy) << 11;
|
---|
2138 | auto __x128 = __vector_bitcast<_Up>(__ix);
|
---|
2139 | auto __mask = [](__vector_type16_t<_UShort> __kk) {
|
---|
2140 | return __vector_bitcast<short>(__kk) < 0;
|
---|
2141 | };
|
---|
2142 | // do __x128 = 0 where __y[4] is set
|
---|
2143 | __x128 = __mask(__k) ? decltype(__x128)() : __x128;
|
---|
2144 | // do __x128 =>> 8 where __y[3] is set
|
---|
2145 | __x128 = __mask(__k += __k) ? __x128 >> 8 : __x128;
|
---|
2146 | // do __x128 =>> 4 where __y[2] is set
|
---|
2147 | __x128 = __mask(__k += __k) ? __x128 >> 4 : __x128;
|
---|
2148 | // do __x128 =>> 2 where __y[1] is set
|
---|
2149 | __x128 = __mask(__k += __k) ? __x128 >> 2 : __x128;
|
---|
2150 | // do __x128 =>> 1 where __y[0] is set
|
---|
2151 | return __intrin_bitcast<_V>(__mask(__k + __k) ? __x128 >> 1
|
---|
2152 | : __x128);
|
---|
2153 | }
|
---|
2154 | } //}}}
|
---|
2155 | else if constexpr (sizeof(_Up) == 4 && !__have_avx2) //{{{
|
---|
2156 | {
|
---|
2157 | if constexpr (is_unsigned_v<_Up>)
|
---|
2158 | {
|
---|
2159 | // x >> y == x * 2^-y == (x * 2^(31-y)) >> 31
|
---|
2160 | const __m128 __factor_f = reinterpret_cast<__m128>(
|
---|
2161 | 0x4f00'0000u - (__vector_bitcast<unsigned, 4>(__y) << 23));
|
---|
2162 | const __m128i __factor
|
---|
2163 | = __builtin_constant_p(__factor_f)
|
---|
2164 | ? __to_intrin(
|
---|
2165 | __make_vector<unsigned>(__factor_f[0], __factor_f[1],
|
---|
2166 | __factor_f[2], __factor_f[3]))
|
---|
2167 | : _mm_cvttps_epi32(__factor_f);
|
---|
2168 | const auto __r02
|
---|
2169 | = _mm_srli_epi64(_mm_mul_epu32(__ix, __factor), 31);
|
---|
2170 | const auto __r13 = _mm_mul_epu32(_mm_srli_si128(__ix, 4),
|
---|
2171 | _mm_srli_si128(__factor, 4));
|
---|
2172 | if constexpr (__have_sse4_1)
|
---|
2173 | return __intrin_bitcast<_V>(
|
---|
2174 | _mm_blend_epi16(_mm_slli_epi64(__r13, 1), __r02, 0x33));
|
---|
2175 | else
|
---|
2176 | return __intrin_bitcast<_V>(
|
---|
2177 | __r02 | _mm_slli_si128(_mm_srli_epi64(__r13, 31), 4));
|
---|
2178 | }
|
---|
2179 | else
|
---|
2180 | {
|
---|
2181 | auto __shift = [](auto __a, auto __b) {
|
---|
2182 | if constexpr (is_signed_v<_Up>)
|
---|
2183 | return _mm_sra_epi32(__a, __b);
|
---|
2184 | else
|
---|
2185 | return _mm_srl_epi32(__a, __b);
|
---|
2186 | };
|
---|
2187 | const auto __r0
|
---|
2188 | = __shift(__ix, _mm_unpacklo_epi32(__iy, __m128i()));
|
---|
2189 | const auto __r1 = __shift(__ix, _mm_srli_epi64(__iy, 32));
|
---|
2190 | const auto __r2
|
---|
2191 | = __shift(__ix, _mm_unpackhi_epi32(__iy, __m128i()));
|
---|
2192 | const auto __r3 = __shift(__ix, _mm_srli_si128(__iy, 12));
|
---|
2193 | if constexpr (__have_sse4_1)
|
---|
2194 | return __intrin_bitcast<_V>(
|
---|
2195 | _mm_blend_epi16(_mm_blend_epi16(__r1, __r0, 0x3),
|
---|
2196 | _mm_blend_epi16(__r3, __r2, 0x30), 0xf0));
|
---|
2197 | else
|
---|
2198 | return __intrin_bitcast<_V>(_mm_unpacklo_epi64(
|
---|
2199 | _mm_unpacklo_epi32(__r0, _mm_srli_si128(__r1, 4)),
|
---|
2200 | _mm_unpackhi_epi32(__r2, _mm_srli_si128(__r3, 4))));
|
---|
2201 | }
|
---|
2202 | } //}}}
|
---|
2203 | else
|
---|
2204 | return __x >> __y;
|
---|
2205 | }
|
---|
2206 | #endif // _GLIBCXX_SIMD_NO_SHIFT_OPT
|
---|
2207 |
|
---|
2208 | // }}}
|
---|
2209 | // compares {{{
|
---|
2210 | // _S_equal_to {{{
|
---|
2211 | template <typename _Tp, size_t _Np>
|
---|
2212 | _GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
|
---|
2213 | _S_equal_to(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
|
---|
2214 | {
|
---|
2215 | if constexpr (__is_avx512_abi<_Abi>()) // {{{
|
---|
2216 | {
|
---|
2217 | if (__builtin_is_constant_evaluated()
|
---|
2218 | || (__x._M_is_constprop() && __y._M_is_constprop()))
|
---|
2219 | return _MaskImpl::_S_to_bits(
|
---|
2220 | __as_wrapper<_Np>(__x._M_data == __y._M_data));
|
---|
2221 |
|
---|
2222 | constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
2223 | [[maybe_unused]] const auto __xi = __to_intrin(__x);
|
---|
2224 | [[maybe_unused]] const auto __yi = __to_intrin(__y);
|
---|
2225 | if constexpr (is_floating_point_v<_Tp>)
|
---|
2226 | {
|
---|
2227 | if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
2228 | return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_EQ_OQ);
|
---|
2229 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
2230 | return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_EQ_OQ);
|
---|
2231 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
2232 | return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_EQ_OQ);
|
---|
2233 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
2234 | return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_EQ_OQ);
|
---|
2235 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
2236 | return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_EQ_OQ);
|
---|
2237 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
2238 | return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_EQ_OQ);
|
---|
2239 | else
|
---|
2240 | __assert_unreachable<_Tp>();
|
---|
2241 | }
|
---|
2242 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
2243 | return _mm512_mask_cmpeq_epi64_mask(__k1, __xi, __yi);
|
---|
2244 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
2245 | return _mm512_mask_cmpeq_epi32_mask(__k1, __xi, __yi);
|
---|
2246 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 2)
|
---|
2247 | return _mm512_mask_cmpeq_epi16_mask(__k1, __xi, __yi);
|
---|
2248 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 1)
|
---|
2249 | return _mm512_mask_cmpeq_epi8_mask(__k1, __xi, __yi);
|
---|
2250 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
2251 | return _mm256_mask_cmpeq_epi64_mask(__k1, __xi, __yi);
|
---|
2252 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
2253 | return _mm256_mask_cmpeq_epi32_mask(__k1, __xi, __yi);
|
---|
2254 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 2)
|
---|
2255 | return _mm256_mask_cmpeq_epi16_mask(__k1, __xi, __yi);
|
---|
2256 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 1)
|
---|
2257 | return _mm256_mask_cmpeq_epi8_mask(__k1, __xi, __yi);
|
---|
2258 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
2259 | return _mm_mask_cmpeq_epi64_mask(__k1, __xi, __yi);
|
---|
2260 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
2261 | return _mm_mask_cmpeq_epi32_mask(__k1, __xi, __yi);
|
---|
2262 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 2)
|
---|
2263 | return _mm_mask_cmpeq_epi16_mask(__k1, __xi, __yi);
|
---|
2264 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 1)
|
---|
2265 | return _mm_mask_cmpeq_epi8_mask(__k1, __xi, __yi);
|
---|
2266 | else
|
---|
2267 | __assert_unreachable<_Tp>();
|
---|
2268 | } // }}}
|
---|
2269 | else if (__builtin_is_constant_evaluated())
|
---|
2270 | return _Base::_S_equal_to(__x, __y);
|
---|
2271 | else if constexpr (sizeof(__x) == 8) // {{{
|
---|
2272 | {
|
---|
2273 | const auto __r128 = __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__x)
|
---|
2274 | == __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__y);
|
---|
2275 | _MaskMember<_Tp> __r64;
|
---|
2276 | __builtin_memcpy(&__r64._M_data, &__r128, sizeof(__r64));
|
---|
2277 | return __r64;
|
---|
2278 | } // }}}
|
---|
2279 | else
|
---|
2280 | return _Base::_S_equal_to(__x, __y);
|
---|
2281 | }
|
---|
2282 |
|
---|
2283 | // }}}
|
---|
2284 | // _S_not_equal_to {{{
|
---|
2285 | template <typename _Tp, size_t _Np>
|
---|
2286 | _GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
|
---|
2287 | _S_not_equal_to(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
|
---|
2288 | {
|
---|
2289 | if constexpr (__is_avx512_abi<_Abi>()) // {{{
|
---|
2290 | {
|
---|
2291 | if (__builtin_is_constant_evaluated()
|
---|
2292 | || (__x._M_is_constprop() && __y._M_is_constprop()))
|
---|
2293 | return _MaskImpl::_S_to_bits(
|
---|
2294 | __as_wrapper<_Np>(__x._M_data != __y._M_data));
|
---|
2295 |
|
---|
2296 | constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
2297 | [[maybe_unused]] const auto __xi = __to_intrin(__x);
|
---|
2298 | [[maybe_unused]] const auto __yi = __to_intrin(__y);
|
---|
2299 | if constexpr (is_floating_point_v<_Tp>)
|
---|
2300 | {
|
---|
2301 | if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
2302 | return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_NEQ_UQ);
|
---|
2303 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
2304 | return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_NEQ_UQ);
|
---|
2305 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
2306 | return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_NEQ_UQ);
|
---|
2307 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
2308 | return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_NEQ_UQ);
|
---|
2309 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
2310 | return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_NEQ_UQ);
|
---|
2311 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
2312 | return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_NEQ_UQ);
|
---|
2313 | else
|
---|
2314 | __assert_unreachable<_Tp>();
|
---|
2315 | }
|
---|
2316 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
2317 | return ~_mm512_mask_cmpeq_epi64_mask(__k1, __xi, __yi);
|
---|
2318 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
2319 | return ~_mm512_mask_cmpeq_epi32_mask(__k1, __xi, __yi);
|
---|
2320 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 2)
|
---|
2321 | return ~_mm512_mask_cmpeq_epi16_mask(__k1, __xi, __yi);
|
---|
2322 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 1)
|
---|
2323 | return ~_mm512_mask_cmpeq_epi8_mask(__k1, __xi, __yi);
|
---|
2324 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
2325 | return ~_mm256_mask_cmpeq_epi64_mask(__k1, __xi, __yi);
|
---|
2326 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
2327 | return ~_mm256_mask_cmpeq_epi32_mask(__k1, __xi, __yi);
|
---|
2328 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 2)
|
---|
2329 | return ~_mm256_mask_cmpeq_epi16_mask(__k1, __xi, __yi);
|
---|
2330 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 1)
|
---|
2331 | return ~_mm256_mask_cmpeq_epi8_mask(__k1, __xi, __yi);
|
---|
2332 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
2333 | return ~_mm_mask_cmpeq_epi64_mask(__k1, __xi, __yi);
|
---|
2334 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
2335 | return ~_mm_mask_cmpeq_epi32_mask(__k1, __xi, __yi);
|
---|
2336 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 2)
|
---|
2337 | return ~_mm_mask_cmpeq_epi16_mask(__k1, __xi, __yi);
|
---|
2338 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 1)
|
---|
2339 | return ~_mm_mask_cmpeq_epi8_mask(__k1, __xi, __yi);
|
---|
2340 | else
|
---|
2341 | __assert_unreachable<_Tp>();
|
---|
2342 | } // }}}
|
---|
2343 | else if constexpr (!__builtin_is_constant_evaluated() // {{{
|
---|
2344 | && sizeof(__x) == 8)
|
---|
2345 | {
|
---|
2346 | const auto __r128 = __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__x)
|
---|
2347 | != __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__y);
|
---|
2348 | _MaskMember<_Tp> __r64;
|
---|
2349 | __builtin_memcpy(&__r64._M_data, &__r128, sizeof(__r64));
|
---|
2350 | return __r64;
|
---|
2351 | } // }}}
|
---|
2352 | else
|
---|
2353 | return _Base::_S_not_equal_to(__x, __y);
|
---|
2354 | }
|
---|
2355 |
|
---|
2356 | // }}}
|
---|
2357 | // _S_less {{{
|
---|
2358 | template <typename _Tp, size_t _Np>
|
---|
2359 | _GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
|
---|
2360 | _S_less(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
|
---|
2361 | {
|
---|
2362 | if constexpr (__is_avx512_abi<_Abi>()) // {{{
|
---|
2363 | {
|
---|
2364 | if (__builtin_is_constant_evaluated()
|
---|
2365 | || (__x._M_is_constprop() && __y._M_is_constprop()))
|
---|
2366 | return _MaskImpl::_S_to_bits(
|
---|
2367 | __as_wrapper<_Np>(__x._M_data < __y._M_data));
|
---|
2368 |
|
---|
2369 | constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
2370 | [[maybe_unused]] const auto __xi = __to_intrin(__x);
|
---|
2371 | [[maybe_unused]] const auto __yi = __to_intrin(__y);
|
---|
2372 | if constexpr (sizeof(__xi) == 64)
|
---|
2373 | {
|
---|
2374 | if constexpr (is_same_v<_Tp, float>)
|
---|
2375 | return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LT_OS);
|
---|
2376 | else if constexpr (is_same_v<_Tp, double>)
|
---|
2377 | return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LT_OS);
|
---|
2378 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 1)
|
---|
2379 | return _mm512_mask_cmplt_epi8_mask(__k1, __xi, __yi);
|
---|
2380 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 2)
|
---|
2381 | return _mm512_mask_cmplt_epi16_mask(__k1, __xi, __yi);
|
---|
2382 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 4)
|
---|
2383 | return _mm512_mask_cmplt_epi32_mask(__k1, __xi, __yi);
|
---|
2384 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 8)
|
---|
2385 | return _mm512_mask_cmplt_epi64_mask(__k1, __xi, __yi);
|
---|
2386 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 1)
|
---|
2387 | return _mm512_mask_cmplt_epu8_mask(__k1, __xi, __yi);
|
---|
2388 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 2)
|
---|
2389 | return _mm512_mask_cmplt_epu16_mask(__k1, __xi, __yi);
|
---|
2390 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 4)
|
---|
2391 | return _mm512_mask_cmplt_epu32_mask(__k1, __xi, __yi);
|
---|
2392 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 8)
|
---|
2393 | return _mm512_mask_cmplt_epu64_mask(__k1, __xi, __yi);
|
---|
2394 | else
|
---|
2395 | __assert_unreachable<_Tp>();
|
---|
2396 | }
|
---|
2397 | else if constexpr (sizeof(__xi) == 32)
|
---|
2398 | {
|
---|
2399 | if constexpr (is_same_v<_Tp, float>)
|
---|
2400 | return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LT_OS);
|
---|
2401 | else if constexpr (is_same_v<_Tp, double>)
|
---|
2402 | return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LT_OS);
|
---|
2403 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 1)
|
---|
2404 | return _mm256_mask_cmplt_epi8_mask(__k1, __xi, __yi);
|
---|
2405 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 2)
|
---|
2406 | return _mm256_mask_cmplt_epi16_mask(__k1, __xi, __yi);
|
---|
2407 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 4)
|
---|
2408 | return _mm256_mask_cmplt_epi32_mask(__k1, __xi, __yi);
|
---|
2409 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 8)
|
---|
2410 | return _mm256_mask_cmplt_epi64_mask(__k1, __xi, __yi);
|
---|
2411 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 1)
|
---|
2412 | return _mm256_mask_cmplt_epu8_mask(__k1, __xi, __yi);
|
---|
2413 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 2)
|
---|
2414 | return _mm256_mask_cmplt_epu16_mask(__k1, __xi, __yi);
|
---|
2415 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 4)
|
---|
2416 | return _mm256_mask_cmplt_epu32_mask(__k1, __xi, __yi);
|
---|
2417 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 8)
|
---|
2418 | return _mm256_mask_cmplt_epu64_mask(__k1, __xi, __yi);
|
---|
2419 | else
|
---|
2420 | __assert_unreachable<_Tp>();
|
---|
2421 | }
|
---|
2422 | else if constexpr (sizeof(__xi) == 16)
|
---|
2423 | {
|
---|
2424 | if constexpr (is_same_v<_Tp, float>)
|
---|
2425 | return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LT_OS);
|
---|
2426 | else if constexpr (is_same_v<_Tp, double>)
|
---|
2427 | return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LT_OS);
|
---|
2428 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 1)
|
---|
2429 | return _mm_mask_cmplt_epi8_mask(__k1, __xi, __yi);
|
---|
2430 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 2)
|
---|
2431 | return _mm_mask_cmplt_epi16_mask(__k1, __xi, __yi);
|
---|
2432 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 4)
|
---|
2433 | return _mm_mask_cmplt_epi32_mask(__k1, __xi, __yi);
|
---|
2434 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 8)
|
---|
2435 | return _mm_mask_cmplt_epi64_mask(__k1, __xi, __yi);
|
---|
2436 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 1)
|
---|
2437 | return _mm_mask_cmplt_epu8_mask(__k1, __xi, __yi);
|
---|
2438 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 2)
|
---|
2439 | return _mm_mask_cmplt_epu16_mask(__k1, __xi, __yi);
|
---|
2440 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 4)
|
---|
2441 | return _mm_mask_cmplt_epu32_mask(__k1, __xi, __yi);
|
---|
2442 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 8)
|
---|
2443 | return _mm_mask_cmplt_epu64_mask(__k1, __xi, __yi);
|
---|
2444 | else
|
---|
2445 | __assert_unreachable<_Tp>();
|
---|
2446 | }
|
---|
2447 | else
|
---|
2448 | __assert_unreachable<_Tp>();
|
---|
2449 | } // }}}
|
---|
2450 | else if constexpr (!__builtin_is_constant_evaluated() // {{{
|
---|
2451 | && sizeof(__x) == 8)
|
---|
2452 | {
|
---|
2453 | const auto __r128 = __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__x)
|
---|
2454 | < __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__y);
|
---|
2455 | _MaskMember<_Tp> __r64;
|
---|
2456 | __builtin_memcpy(&__r64._M_data, &__r128, sizeof(__r64));
|
---|
2457 | return __r64;
|
---|
2458 | } // }}}
|
---|
2459 | else
|
---|
2460 | return _Base::_S_less(__x, __y);
|
---|
2461 | }
|
---|
2462 |
|
---|
2463 | // }}}
|
---|
2464 | // _S_less_equal {{{
|
---|
2465 | template <typename _Tp, size_t _Np>
|
---|
2466 | _GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
|
---|
2467 | _S_less_equal(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
|
---|
2468 | {
|
---|
2469 | if constexpr (__is_avx512_abi<_Abi>()) // {{{
|
---|
2470 | {
|
---|
2471 | if (__builtin_is_constant_evaluated()
|
---|
2472 | || (__x._M_is_constprop() && __y._M_is_constprop()))
|
---|
2473 | return _MaskImpl::_S_to_bits(
|
---|
2474 | __as_wrapper<_Np>(__x._M_data <= __y._M_data));
|
---|
2475 |
|
---|
2476 | constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
2477 | [[maybe_unused]] const auto __xi = __to_intrin(__x);
|
---|
2478 | [[maybe_unused]] const auto __yi = __to_intrin(__y);
|
---|
2479 | if constexpr (sizeof(__xi) == 64)
|
---|
2480 | {
|
---|
2481 | if constexpr (is_same_v<_Tp, float>)
|
---|
2482 | return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LE_OS);
|
---|
2483 | else if constexpr (is_same_v<_Tp, double>)
|
---|
2484 | return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LE_OS);
|
---|
2485 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 1)
|
---|
2486 | return _mm512_mask_cmple_epi8_mask(__k1, __xi, __yi);
|
---|
2487 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 2)
|
---|
2488 | return _mm512_mask_cmple_epi16_mask(__k1, __xi, __yi);
|
---|
2489 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 4)
|
---|
2490 | return _mm512_mask_cmple_epi32_mask(__k1, __xi, __yi);
|
---|
2491 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 8)
|
---|
2492 | return _mm512_mask_cmple_epi64_mask(__k1, __xi, __yi);
|
---|
2493 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 1)
|
---|
2494 | return _mm512_mask_cmple_epu8_mask(__k1, __xi, __yi);
|
---|
2495 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 2)
|
---|
2496 | return _mm512_mask_cmple_epu16_mask(__k1, __xi, __yi);
|
---|
2497 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 4)
|
---|
2498 | return _mm512_mask_cmple_epu32_mask(__k1, __xi, __yi);
|
---|
2499 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 8)
|
---|
2500 | return _mm512_mask_cmple_epu64_mask(__k1, __xi, __yi);
|
---|
2501 | else
|
---|
2502 | __assert_unreachable<_Tp>();
|
---|
2503 | }
|
---|
2504 | else if constexpr (sizeof(__xi) == 32)
|
---|
2505 | {
|
---|
2506 | if constexpr (is_same_v<_Tp, float>)
|
---|
2507 | return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LE_OS);
|
---|
2508 | else if constexpr (is_same_v<_Tp, double>)
|
---|
2509 | return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LE_OS);
|
---|
2510 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 1)
|
---|
2511 | return _mm256_mask_cmple_epi8_mask(__k1, __xi, __yi);
|
---|
2512 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 2)
|
---|
2513 | return _mm256_mask_cmple_epi16_mask(__k1, __xi, __yi);
|
---|
2514 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 4)
|
---|
2515 | return _mm256_mask_cmple_epi32_mask(__k1, __xi, __yi);
|
---|
2516 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 8)
|
---|
2517 | return _mm256_mask_cmple_epi64_mask(__k1, __xi, __yi);
|
---|
2518 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 1)
|
---|
2519 | return _mm256_mask_cmple_epu8_mask(__k1, __xi, __yi);
|
---|
2520 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 2)
|
---|
2521 | return _mm256_mask_cmple_epu16_mask(__k1, __xi, __yi);
|
---|
2522 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 4)
|
---|
2523 | return _mm256_mask_cmple_epu32_mask(__k1, __xi, __yi);
|
---|
2524 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 8)
|
---|
2525 | return _mm256_mask_cmple_epu64_mask(__k1, __xi, __yi);
|
---|
2526 | else
|
---|
2527 | __assert_unreachable<_Tp>();
|
---|
2528 | }
|
---|
2529 | else if constexpr (sizeof(__xi) == 16)
|
---|
2530 | {
|
---|
2531 | if constexpr (is_same_v<_Tp, float>)
|
---|
2532 | return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LE_OS);
|
---|
2533 | else if constexpr (is_same_v<_Tp, double>)
|
---|
2534 | return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LE_OS);
|
---|
2535 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 1)
|
---|
2536 | return _mm_mask_cmple_epi8_mask(__k1, __xi, __yi);
|
---|
2537 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 2)
|
---|
2538 | return _mm_mask_cmple_epi16_mask(__k1, __xi, __yi);
|
---|
2539 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 4)
|
---|
2540 | return _mm_mask_cmple_epi32_mask(__k1, __xi, __yi);
|
---|
2541 | else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 8)
|
---|
2542 | return _mm_mask_cmple_epi64_mask(__k1, __xi, __yi);
|
---|
2543 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 1)
|
---|
2544 | return _mm_mask_cmple_epu8_mask(__k1, __xi, __yi);
|
---|
2545 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 2)
|
---|
2546 | return _mm_mask_cmple_epu16_mask(__k1, __xi, __yi);
|
---|
2547 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 4)
|
---|
2548 | return _mm_mask_cmple_epu32_mask(__k1, __xi, __yi);
|
---|
2549 | else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 8)
|
---|
2550 | return _mm_mask_cmple_epu64_mask(__k1, __xi, __yi);
|
---|
2551 | else
|
---|
2552 | __assert_unreachable<_Tp>();
|
---|
2553 | }
|
---|
2554 | else
|
---|
2555 | __assert_unreachable<_Tp>();
|
---|
2556 | } // }}}
|
---|
2557 | else if constexpr (!__builtin_is_constant_evaluated() // {{{
|
---|
2558 | && sizeof(__x) == 8)
|
---|
2559 | {
|
---|
2560 | const auto __r128 = __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__x)
|
---|
2561 | <= __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__y);
|
---|
2562 | _MaskMember<_Tp> __r64;
|
---|
2563 | __builtin_memcpy(&__r64._M_data, &__r128, sizeof(__r64));
|
---|
2564 | return __r64;
|
---|
2565 | } // }}}
|
---|
2566 | else
|
---|
2567 | return _Base::_S_less_equal(__x, __y);
|
---|
2568 | }
|
---|
2569 |
|
---|
2570 | // }}} }}}
|
---|
2571 | // negation {{{
|
---|
2572 | template <typename _Tp, size_t _Np>
|
---|
2573 | _GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
|
---|
2574 | _S_negate(_SimdWrapper<_Tp, _Np> __x) noexcept
|
---|
2575 | {
|
---|
2576 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
2577 | return _S_equal_to(__x, _SimdWrapper<_Tp, _Np>());
|
---|
2578 | else
|
---|
2579 | return _Base::_S_negate(__x);
|
---|
2580 | }
|
---|
2581 |
|
---|
2582 | // }}}
|
---|
2583 | // math {{{
|
---|
2584 | using _Base::_S_abs;
|
---|
2585 |
|
---|
2586 | // _S_sqrt {{{
|
---|
2587 | template <typename _Tp, size_t _Np>
|
---|
2588 | _GLIBCXX_SIMD_INTRINSIC static _SimdWrapper<_Tp, _Np>
|
---|
2589 | _S_sqrt(_SimdWrapper<_Tp, _Np> __x)
|
---|
2590 | {
|
---|
2591 | if constexpr (__is_sse_ps<_Tp, _Np>())
|
---|
2592 | return __auto_bitcast(_mm_sqrt_ps(__to_intrin(__x)));
|
---|
2593 | else if constexpr (__is_sse_pd<_Tp, _Np>())
|
---|
2594 | return _mm_sqrt_pd(__x);
|
---|
2595 | else if constexpr (__is_avx_ps<_Tp, _Np>())
|
---|
2596 | return _mm256_sqrt_ps(__x);
|
---|
2597 | else if constexpr (__is_avx_pd<_Tp, _Np>())
|
---|
2598 | return _mm256_sqrt_pd(__x);
|
---|
2599 | else if constexpr (__is_avx512_ps<_Tp, _Np>())
|
---|
2600 | return _mm512_sqrt_ps(__x);
|
---|
2601 | else if constexpr (__is_avx512_pd<_Tp, _Np>())
|
---|
2602 | return _mm512_sqrt_pd(__x);
|
---|
2603 | else
|
---|
2604 | __assert_unreachable<_Tp>();
|
---|
2605 | }
|
---|
2606 |
|
---|
2607 | // }}}
|
---|
2608 | // _S_ldexp {{{
|
---|
2609 | template <typename _Tp, size_t _Np>
|
---|
2610 | _GLIBCXX_SIMD_INTRINSIC static _SimdWrapper<_Tp, _Np>
|
---|
2611 | _S_ldexp(_SimdWrapper<_Tp, _Np> __x,
|
---|
2612 | __fixed_size_storage_t<int, _Np> __exp)
|
---|
2613 | {
|
---|
2614 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
2615 | {
|
---|
2616 | const auto __xi = __to_intrin(__x);
|
---|
2617 | constexpr _SimdConverter<int, simd_abi::fixed_size<_Np>, _Tp, _Abi>
|
---|
2618 | __cvt;
|
---|
2619 | const auto __expi = __to_intrin(__cvt(__exp));
|
---|
2620 | constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
2621 | if constexpr (sizeof(__xi) == 16)
|
---|
2622 | {
|
---|
2623 | if constexpr (sizeof(_Tp) == 8)
|
---|
2624 | return _mm_maskz_scalef_pd(__k1, __xi, __expi);
|
---|
2625 | else
|
---|
2626 | return _mm_maskz_scalef_ps(__k1, __xi, __expi);
|
---|
2627 | }
|
---|
2628 | else if constexpr (sizeof(__xi) == 32)
|
---|
2629 | {
|
---|
2630 | if constexpr (sizeof(_Tp) == 8)
|
---|
2631 | return _mm256_maskz_scalef_pd(__k1, __xi, __expi);
|
---|
2632 | else
|
---|
2633 | return _mm256_maskz_scalef_ps(__k1, __xi, __expi);
|
---|
2634 | }
|
---|
2635 | else
|
---|
2636 | {
|
---|
2637 | static_assert(sizeof(__xi) == 64);
|
---|
2638 | if constexpr (sizeof(_Tp) == 8)
|
---|
2639 | return _mm512_maskz_scalef_pd(__k1, __xi, __expi);
|
---|
2640 | else
|
---|
2641 | return _mm512_maskz_scalef_ps(__k1, __xi, __expi);
|
---|
2642 | }
|
---|
2643 | }
|
---|
2644 | else
|
---|
2645 | return _Base::_S_ldexp(__x, __exp);
|
---|
2646 | }
|
---|
2647 |
|
---|
2648 | // }}}
|
---|
2649 | // _S_trunc {{{
|
---|
2650 | template <typename _Tp, size_t _Np>
|
---|
2651 | _GLIBCXX_SIMD_INTRINSIC static _SimdWrapper<_Tp, _Np>
|
---|
2652 | _S_trunc(_SimdWrapper<_Tp, _Np> __x)
|
---|
2653 | {
|
---|
2654 | if constexpr (__is_avx512_ps<_Tp, _Np>())
|
---|
2655 | return _mm512_roundscale_ps(__x, 0x0b);
|
---|
2656 | else if constexpr (__is_avx512_pd<_Tp, _Np>())
|
---|
2657 | return _mm512_roundscale_pd(__x, 0x0b);
|
---|
2658 | else if constexpr (__is_avx_ps<_Tp, _Np>())
|
---|
2659 | return _mm256_round_ps(__x, 0x3);
|
---|
2660 | else if constexpr (__is_avx_pd<_Tp, _Np>())
|
---|
2661 | return _mm256_round_pd(__x, 0x3);
|
---|
2662 | else if constexpr (__have_sse4_1 && __is_sse_ps<_Tp, _Np>())
|
---|
2663 | return __auto_bitcast(_mm_round_ps(__to_intrin(__x), 0x3));
|
---|
2664 | else if constexpr (__have_sse4_1 && __is_sse_pd<_Tp, _Np>())
|
---|
2665 | return _mm_round_pd(__x, 0x3);
|
---|
2666 | else if constexpr (__is_sse_ps<_Tp, _Np>())
|
---|
2667 | {
|
---|
2668 | auto __truncated
|
---|
2669 | = _mm_cvtepi32_ps(_mm_cvttps_epi32(__to_intrin(__x)));
|
---|
2670 | const auto __no_fractional_values
|
---|
2671 | = __vector_bitcast<int>(__vector_bitcast<_UInt>(__to_intrin(__x))
|
---|
2672 | & 0x7f800000u)
|
---|
2673 | < 0x4b000000; // the exponent is so large that no mantissa bits
|
---|
2674 | // signify fractional values (0x3f8 + 23*8 =
|
---|
2675 | // 0x4b0)
|
---|
2676 | return __no_fractional_values ? __truncated : __to_intrin(__x);
|
---|
2677 | }
|
---|
2678 | else
|
---|
2679 | return _Base::_S_trunc(__x);
|
---|
2680 | }
|
---|
2681 |
|
---|
2682 | // }}}
|
---|
2683 | // _S_round {{{
|
---|
2684 | template <typename _Tp, size_t _Np>
|
---|
2685 | _GLIBCXX_SIMD_INTRINSIC static _SimdWrapper<_Tp, _Np>
|
---|
2686 | _S_round(_SimdWrapper<_Tp, _Np> __x)
|
---|
2687 | {
|
---|
2688 | // Note that _MM_FROUND_TO_NEAREST_INT rounds ties to even, not away
|
---|
2689 | // from zero as required by std::round. Therefore this function is more
|
---|
2690 | // complicated.
|
---|
2691 | using _V = __vector_type_t<_Tp, _Np>;
|
---|
2692 | _V __truncated;
|
---|
2693 | if constexpr (__is_avx512_ps<_Tp, _Np>())
|
---|
2694 | __truncated = _mm512_roundscale_ps(__x._M_data, 0x0b);
|
---|
2695 | else if constexpr (__is_avx512_pd<_Tp, _Np>())
|
---|
2696 | __truncated = _mm512_roundscale_pd(__x._M_data, 0x0b);
|
---|
2697 | else if constexpr (__is_avx_ps<_Tp, _Np>())
|
---|
2698 | __truncated = _mm256_round_ps(__x._M_data,
|
---|
2699 | _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
|
---|
2700 | else if constexpr (__is_avx_pd<_Tp, _Np>())
|
---|
2701 | __truncated = _mm256_round_pd(__x._M_data,
|
---|
2702 | _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
|
---|
2703 | else if constexpr (__have_sse4_1 && __is_sse_ps<_Tp, _Np>())
|
---|
2704 | __truncated = __auto_bitcast(
|
---|
2705 | _mm_round_ps(__to_intrin(__x),
|
---|
2706 | _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC));
|
---|
2707 | else if constexpr (__have_sse4_1 && __is_sse_pd<_Tp, _Np>())
|
---|
2708 | __truncated
|
---|
2709 | = _mm_round_pd(__x._M_data, _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
|
---|
2710 | else if constexpr (__is_sse_ps<_Tp, _Np>())
|
---|
2711 | __truncated = __auto_bitcast(
|
---|
2712 | _mm_cvtepi32_ps(_mm_cvttps_epi32(__to_intrin(__x))));
|
---|
2713 | else
|
---|
2714 | return _Base::_S_round(__x);
|
---|
2715 |
|
---|
2716 | // x < 0 => truncated <= 0 && truncated >= x => x - truncated <= 0
|
---|
2717 | // x > 0 => truncated >= 0 && truncated <= x => x - truncated >= 0
|
---|
2718 |
|
---|
2719 | const _V __rounded
|
---|
2720 | = __truncated
|
---|
2721 | + (__and(_S_absmask<_V>, __x._M_data - __truncated) >= _Tp(.5)
|
---|
2722 | ? __or(__and(_S_signmask<_V>, __x._M_data), _V() + 1)
|
---|
2723 | : _V());
|
---|
2724 | if constexpr (__have_sse4_1)
|
---|
2725 | return __rounded;
|
---|
2726 | else // adjust for missing range in cvttps_epi32
|
---|
2727 | return __and(_S_absmask<_V>, __x._M_data) < 0x1p23f ? __rounded
|
---|
2728 | : __x._M_data;
|
---|
2729 | }
|
---|
2730 |
|
---|
2731 | // }}}
|
---|
2732 | // _S_nearbyint {{{
|
---|
2733 | template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
|
---|
2734 | _GLIBCXX_SIMD_INTRINSIC static _Tp _S_nearbyint(_Tp __x) noexcept
|
---|
2735 | {
|
---|
2736 | if constexpr (_TVT::template _S_is<float, 16>)
|
---|
2737 | return _mm512_roundscale_ps(__x, 0x0c);
|
---|
2738 | else if constexpr (_TVT::template _S_is<double, 8>)
|
---|
2739 | return _mm512_roundscale_pd(__x, 0x0c);
|
---|
2740 | else if constexpr (_TVT::template _S_is<float, 8>)
|
---|
2741 | return _mm256_round_ps(__x,
|
---|
2742 | _MM_FROUND_CUR_DIRECTION | _MM_FROUND_NO_EXC);
|
---|
2743 | else if constexpr (_TVT::template _S_is<double, 4>)
|
---|
2744 | return _mm256_round_pd(__x,
|
---|
2745 | _MM_FROUND_CUR_DIRECTION | _MM_FROUND_NO_EXC);
|
---|
2746 | else if constexpr (__have_sse4_1 && _TVT::template _S_is<float, 4>)
|
---|
2747 | return _mm_round_ps(__x,
|
---|
2748 | _MM_FROUND_CUR_DIRECTION | _MM_FROUND_NO_EXC);
|
---|
2749 | else if constexpr (__have_sse4_1 && _TVT::template _S_is<double, 2>)
|
---|
2750 | return _mm_round_pd(__x,
|
---|
2751 | _MM_FROUND_CUR_DIRECTION | _MM_FROUND_NO_EXC);
|
---|
2752 | else
|
---|
2753 | return _Base::_S_nearbyint(__x);
|
---|
2754 | }
|
---|
2755 |
|
---|
2756 | // }}}
|
---|
2757 | // _S_rint {{{
|
---|
2758 | template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
|
---|
2759 | _GLIBCXX_SIMD_INTRINSIC static _Tp _S_rint(_Tp __x) noexcept
|
---|
2760 | {
|
---|
2761 | if constexpr (_TVT::template _S_is<float, 16>)
|
---|
2762 | return _mm512_roundscale_ps(__x, 0x04);
|
---|
2763 | else if constexpr (_TVT::template _S_is<double, 8>)
|
---|
2764 | return _mm512_roundscale_pd(__x, 0x04);
|
---|
2765 | else if constexpr (_TVT::template _S_is<float, 8>)
|
---|
2766 | return _mm256_round_ps(__x, _MM_FROUND_CUR_DIRECTION);
|
---|
2767 | else if constexpr (_TVT::template _S_is<double, 4>)
|
---|
2768 | return _mm256_round_pd(__x, _MM_FROUND_CUR_DIRECTION);
|
---|
2769 | else if constexpr (__have_sse4_1 && _TVT::template _S_is<float, 4>)
|
---|
2770 | return _mm_round_ps(__x, _MM_FROUND_CUR_DIRECTION);
|
---|
2771 | else if constexpr (__have_sse4_1 && _TVT::template _S_is<double, 2>)
|
---|
2772 | return _mm_round_pd(__x, _MM_FROUND_CUR_DIRECTION);
|
---|
2773 | else
|
---|
2774 | return _Base::_S_rint(__x);
|
---|
2775 | }
|
---|
2776 |
|
---|
2777 | // }}}
|
---|
2778 | // _S_floor {{{
|
---|
2779 | template <typename _Tp, size_t _Np>
|
---|
2780 | _GLIBCXX_SIMD_INTRINSIC static _SimdWrapper<_Tp, _Np>
|
---|
2781 | _S_floor(_SimdWrapper<_Tp, _Np> __x)
|
---|
2782 | {
|
---|
2783 | if constexpr (__is_avx512_ps<_Tp, _Np>())
|
---|
2784 | return _mm512_roundscale_ps(__x, 0x09);
|
---|
2785 | else if constexpr (__is_avx512_pd<_Tp, _Np>())
|
---|
2786 | return _mm512_roundscale_pd(__x, 0x09);
|
---|
2787 | else if constexpr (__is_avx_ps<_Tp, _Np>())
|
---|
2788 | return _mm256_round_ps(__x, 0x1);
|
---|
2789 | else if constexpr (__is_avx_pd<_Tp, _Np>())
|
---|
2790 | return _mm256_round_pd(__x, 0x1);
|
---|
2791 | else if constexpr (__have_sse4_1 && __is_sse_ps<_Tp, _Np>())
|
---|
2792 | return __auto_bitcast(_mm_floor_ps(__to_intrin(__x)));
|
---|
2793 | else if constexpr (__have_sse4_1 && __is_sse_pd<_Tp, _Np>())
|
---|
2794 | return _mm_floor_pd(__x);
|
---|
2795 | else
|
---|
2796 | return _Base::_S_floor(__x);
|
---|
2797 | }
|
---|
2798 |
|
---|
2799 | // }}}
|
---|
2800 | // _S_ceil {{{
|
---|
2801 | template <typename _Tp, size_t _Np>
|
---|
2802 | _GLIBCXX_SIMD_INTRINSIC static _SimdWrapper<_Tp, _Np>
|
---|
2803 | _S_ceil(_SimdWrapper<_Tp, _Np> __x)
|
---|
2804 | {
|
---|
2805 | if constexpr (__is_avx512_ps<_Tp, _Np>())
|
---|
2806 | return _mm512_roundscale_ps(__x, 0x0a);
|
---|
2807 | else if constexpr (__is_avx512_pd<_Tp, _Np>())
|
---|
2808 | return _mm512_roundscale_pd(__x, 0x0a);
|
---|
2809 | else if constexpr (__is_avx_ps<_Tp, _Np>())
|
---|
2810 | return _mm256_round_ps(__x, 0x2);
|
---|
2811 | else if constexpr (__is_avx_pd<_Tp, _Np>())
|
---|
2812 | return _mm256_round_pd(__x, 0x2);
|
---|
2813 | else if constexpr (__have_sse4_1 && __is_sse_ps<_Tp, _Np>())
|
---|
2814 | return __auto_bitcast(_mm_ceil_ps(__to_intrin(__x)));
|
---|
2815 | else if constexpr (__have_sse4_1 && __is_sse_pd<_Tp, _Np>())
|
---|
2816 | return _mm_ceil_pd(__x);
|
---|
2817 | else
|
---|
2818 | return _Base::_S_ceil(__x);
|
---|
2819 | }
|
---|
2820 |
|
---|
2821 | // }}}
|
---|
2822 | // _S_signbit {{{
|
---|
2823 | template <typename _Tp, size_t _Np>
|
---|
2824 | _GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
|
---|
2825 | _S_signbit(_SimdWrapper<_Tp, _Np> __x)
|
---|
2826 | {
|
---|
2827 | if constexpr (__is_avx512_abi<_Abi>() && __have_avx512dq)
|
---|
2828 | {
|
---|
2829 | if constexpr (sizeof(__x) == 64 && sizeof(_Tp) == 4)
|
---|
2830 | return _mm512_movepi32_mask(
|
---|
2831 | __intrin_bitcast<__m512i>(__x._M_data));
|
---|
2832 | else if constexpr (sizeof(__x) == 64 && sizeof(_Tp) == 8)
|
---|
2833 | return _mm512_movepi64_mask(
|
---|
2834 | __intrin_bitcast<__m512i>(__x._M_data));
|
---|
2835 | else if constexpr (sizeof(__x) == 32 && sizeof(_Tp) == 4)
|
---|
2836 | return _mm256_movepi32_mask(
|
---|
2837 | __intrin_bitcast<__m256i>(__x._M_data));
|
---|
2838 | else if constexpr (sizeof(__x) == 32 && sizeof(_Tp) == 8)
|
---|
2839 | return _mm256_movepi64_mask(
|
---|
2840 | __intrin_bitcast<__m256i>(__x._M_data));
|
---|
2841 | else if constexpr (sizeof(__x) <= 16 && sizeof(_Tp) == 4)
|
---|
2842 | return _mm_movepi32_mask(__intrin_bitcast<__m128i>(__x._M_data));
|
---|
2843 | else if constexpr (sizeof(__x) <= 16 && sizeof(_Tp) == 8)
|
---|
2844 | return _mm_movepi64_mask(__intrin_bitcast<__m128i>(__x._M_data));
|
---|
2845 | }
|
---|
2846 | else if constexpr (__is_avx512_abi<_Abi>())
|
---|
2847 | {
|
---|
2848 | const auto __xi = __to_intrin(__x);
|
---|
2849 | [[maybe_unused]] constexpr auto __k1
|
---|
2850 | = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
2851 | if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
2852 | return _mm_movemask_ps(__xi);
|
---|
2853 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
2854 | return _mm_movemask_pd(__xi);
|
---|
2855 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
2856 | return _mm256_movemask_ps(__xi);
|
---|
2857 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
2858 | return _mm256_movemask_pd(__xi);
|
---|
2859 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
2860 | return _mm512_mask_cmplt_epi32_mask(
|
---|
2861 | __k1, __intrin_bitcast<__m512i>(__xi), __m512i());
|
---|
2862 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
2863 | return _mm512_mask_cmplt_epi64_mask(
|
---|
2864 | __k1, __intrin_bitcast<__m512i>(__xi), __m512i());
|
---|
2865 | else
|
---|
2866 | __assert_unreachable<_Tp>();
|
---|
2867 | }
|
---|
2868 | else
|
---|
2869 | return _Base::_S_signbit(__x);
|
---|
2870 | /*{
|
---|
2871 | using _I = __int_for_sizeof_t<_Tp>;
|
---|
2872 | if constexpr (sizeof(__x) == 64)
|
---|
2873 | return _S_less(__vector_bitcast<_I>(__x), _I());
|
---|
2874 | else
|
---|
2875 | {
|
---|
2876 | const auto __xx = __vector_bitcast<_I>(__x._M_data);
|
---|
2877 | [[maybe_unused]] constexpr _I __signmask = __finite_min_v<_I>;
|
---|
2878 | if constexpr ((sizeof(_Tp) == 4 &&
|
---|
2879 | (__have_avx2 || sizeof(__x) == 16)) ||
|
---|
2880 | __have_avx512vl)
|
---|
2881 | {
|
---|
2882 | return __vector_bitcast<_Tp>(__xx >> __digits_v<_I>);
|
---|
2883 | }
|
---|
2884 | else if constexpr ((__have_avx2 ||
|
---|
2885 | (__have_ssse3 && sizeof(__x) == 16)))
|
---|
2886 | {
|
---|
2887 | return __vector_bitcast<_Tp>((__xx & __signmask) ==
|
---|
2888 | __signmask);
|
---|
2889 | }
|
---|
2890 | else
|
---|
2891 | { // SSE2/3 or AVX (w/o AVX2)
|
---|
2892 | constexpr auto __one = __vector_broadcast<_Np, _Tp>(1);
|
---|
2893 | return __vector_bitcast<_Tp>(
|
---|
2894 | __vector_bitcast<_Tp>(
|
---|
2895 | (__xx & __signmask) |
|
---|
2896 | __vector_bitcast<_I>(__one)) // -1 or 1
|
---|
2897 | != __one);
|
---|
2898 | }
|
---|
2899 | }
|
---|
2900 | }*/
|
---|
2901 | }
|
---|
2902 |
|
---|
2903 | // }}}
|
---|
2904 | // _S_isnonzerovalue_mask {{{
|
---|
2905 | // (isnormal | is subnormal == !isinf & !isnan & !is zero)
|
---|
2906 | template <typename _Tp>
|
---|
2907 | _GLIBCXX_SIMD_INTRINSIC static auto _S_isnonzerovalue_mask(_Tp __x)
|
---|
2908 | {
|
---|
2909 | using _Traits = _VectorTraits<_Tp>;
|
---|
2910 | if constexpr (__have_avx512dq_vl)
|
---|
2911 | {
|
---|
2912 | if constexpr (_Traits::template _S_is<
|
---|
2913 | float, 2> || _Traits::template _S_is<float, 4>)
|
---|
2914 | return _knot_mask8(_mm_fpclass_ps_mask(__to_intrin(__x), 0x9f));
|
---|
2915 | else if constexpr (_Traits::template _S_is<float, 8>)
|
---|
2916 | return _knot_mask8(_mm256_fpclass_ps_mask(__x, 0x9f));
|
---|
2917 | else if constexpr (_Traits::template _S_is<float, 16>)
|
---|
2918 | return _knot_mask16(_mm512_fpclass_ps_mask(__x, 0x9f));
|
---|
2919 | else if constexpr (_Traits::template _S_is<double, 2>)
|
---|
2920 | return _knot_mask8(_mm_fpclass_pd_mask(__x, 0x9f));
|
---|
2921 | else if constexpr (_Traits::template _S_is<double, 4>)
|
---|
2922 | return _knot_mask8(_mm256_fpclass_pd_mask(__x, 0x9f));
|
---|
2923 | else if constexpr (_Traits::template _S_is<double, 8>)
|
---|
2924 | return _knot_mask8(_mm512_fpclass_pd_mask(__x, 0x9f));
|
---|
2925 | else
|
---|
2926 | __assert_unreachable<_Tp>();
|
---|
2927 | }
|
---|
2928 | else
|
---|
2929 | {
|
---|
2930 | using _Up = typename _Traits::value_type;
|
---|
2931 | constexpr size_t _Np = _Traits::_S_full_size;
|
---|
2932 | const auto __a = __x * __infinity_v<_Up>; // NaN if __x == 0
|
---|
2933 | const auto __b = __x * _Up(); // NaN if __x == inf
|
---|
2934 | if constexpr (__have_avx512vl && __is_sse_ps<_Up, _Np>())
|
---|
2935 | return _mm_cmp_ps_mask(__to_intrin(__a), __to_intrin(__b),
|
---|
2936 | _CMP_ORD_Q);
|
---|
2937 | else if constexpr (__have_avx512f && __is_sse_ps<_Up, _Np>())
|
---|
2938 | return __mmask8(0xf
|
---|
2939 | & _mm512_cmp_ps_mask(__auto_bitcast(__a),
|
---|
2940 | __auto_bitcast(__b),
|
---|
2941 | _CMP_ORD_Q));
|
---|
2942 | else if constexpr (__have_avx512vl && __is_sse_pd<_Up, _Np>())
|
---|
2943 | return _mm_cmp_pd_mask(__a, __b, _CMP_ORD_Q);
|
---|
2944 | else if constexpr (__have_avx512f && __is_sse_pd<_Up, _Np>())
|
---|
2945 | return __mmask8(0x3
|
---|
2946 | & _mm512_cmp_pd_mask(__auto_bitcast(__a),
|
---|
2947 | __auto_bitcast(__b),
|
---|
2948 | _CMP_ORD_Q));
|
---|
2949 | else if constexpr (__have_avx512vl && __is_avx_ps<_Up, _Np>())
|
---|
2950 | return _mm256_cmp_ps_mask(__a, __b, _CMP_ORD_Q);
|
---|
2951 | else if constexpr (__have_avx512f && __is_avx_ps<_Up, _Np>())
|
---|
2952 | return __mmask8(_mm512_cmp_ps_mask(__auto_bitcast(__a),
|
---|
2953 | __auto_bitcast(__b),
|
---|
2954 | _CMP_ORD_Q));
|
---|
2955 | else if constexpr (__have_avx512vl && __is_avx_pd<_Up, _Np>())
|
---|
2956 | return _mm256_cmp_pd_mask(__a, __b, _CMP_ORD_Q);
|
---|
2957 | else if constexpr (__have_avx512f && __is_avx_pd<_Up, _Np>())
|
---|
2958 | return __mmask8(0xf
|
---|
2959 | & _mm512_cmp_pd_mask(__auto_bitcast(__a),
|
---|
2960 | __auto_bitcast(__b),
|
---|
2961 | _CMP_ORD_Q));
|
---|
2962 | else if constexpr (__is_avx512_ps<_Up, _Np>())
|
---|
2963 | return _mm512_cmp_ps_mask(__a, __b, _CMP_ORD_Q);
|
---|
2964 | else if constexpr (__is_avx512_pd<_Up, _Np>())
|
---|
2965 | return _mm512_cmp_pd_mask(__a, __b, _CMP_ORD_Q);
|
---|
2966 | else
|
---|
2967 | __assert_unreachable<_Tp>();
|
---|
2968 | }
|
---|
2969 | }
|
---|
2970 |
|
---|
2971 | // }}}
|
---|
2972 | // _S_isfinite {{{
|
---|
2973 | template <typename _Tp, size_t _Np>
|
---|
2974 | _GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
|
---|
2975 | _S_isfinite(_SimdWrapper<_Tp, _Np> __x)
|
---|
2976 | {
|
---|
2977 | static_assert(is_floating_point_v<_Tp>);
|
---|
2978 | #if !__FINITE_MATH_ONLY__
|
---|
2979 | if constexpr (__is_avx512_abi<_Abi>() && __have_avx512dq)
|
---|
2980 | {
|
---|
2981 | const auto __xi = __to_intrin(__x);
|
---|
2982 | constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
2983 | if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
2984 | return __k1 ^ _mm512_mask_fpclass_ps_mask(__k1, __xi, 0x99);
|
---|
2985 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
2986 | return __k1 ^ _mm512_mask_fpclass_pd_mask(__k1, __xi, 0x99);
|
---|
2987 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
2988 | return __k1 ^ _mm256_mask_fpclass_ps_mask(__k1, __xi, 0x99);
|
---|
2989 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
2990 | return __k1 ^ _mm256_mask_fpclass_pd_mask(__k1, __xi, 0x99);
|
---|
2991 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
2992 | return __k1 ^ _mm_mask_fpclass_ps_mask(__k1, __xi, 0x99);
|
---|
2993 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
2994 | return __k1 ^ _mm_mask_fpclass_pd_mask(__k1, __xi, 0x99);
|
---|
2995 | }
|
---|
2996 | else if constexpr (__is_avx512_abi<_Abi>())
|
---|
2997 | {
|
---|
2998 | // if all exponent bits are set, __x is either inf or NaN
|
---|
2999 | using _I = __int_for_sizeof_t<_Tp>;
|
---|
3000 | const auto __inf = __vector_bitcast<_I>(
|
---|
3001 | __vector_broadcast<_Np>(__infinity_v<_Tp>));
|
---|
3002 | return _S_less<_I, _Np>(__vector_bitcast<_I>(__x) & __inf, __inf);
|
---|
3003 | }
|
---|
3004 | else
|
---|
3005 | #endif
|
---|
3006 | return _Base::_S_isfinite(__x);
|
---|
3007 | }
|
---|
3008 |
|
---|
3009 | // }}}
|
---|
3010 | // _S_isinf {{{
|
---|
3011 | template <typename _Tp, size_t _Np>
|
---|
3012 | _GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
|
---|
3013 | _S_isinf(_SimdWrapper<_Tp, _Np> __x)
|
---|
3014 | {
|
---|
3015 | #if !__FINITE_MATH_ONLY__
|
---|
3016 | if constexpr (__is_avx512_abi<_Abi>() && __have_avx512dq)
|
---|
3017 | {
|
---|
3018 | const auto __xi = __to_intrin(__x);
|
---|
3019 | if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
3020 | return _mm512_fpclass_ps_mask(__xi, 0x18);
|
---|
3021 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
3022 | return _mm512_fpclass_pd_mask(__xi, 0x18);
|
---|
3023 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3024 | return _mm256_fpclass_ps_mask(__xi, 0x18);
|
---|
3025 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3026 | return _mm256_fpclass_pd_mask(__xi, 0x18);
|
---|
3027 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3028 | return _mm_fpclass_ps_mask(__xi, 0x18);
|
---|
3029 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3030 | return _mm_fpclass_pd_mask(__xi, 0x18);
|
---|
3031 | else
|
---|
3032 | __assert_unreachable<_Tp>();
|
---|
3033 | }
|
---|
3034 | else if constexpr (__have_avx512dq_vl)
|
---|
3035 | {
|
---|
3036 | if constexpr (__is_sse_pd<_Tp, _Np>())
|
---|
3037 | return _mm_movm_epi64(_mm_fpclass_pd_mask(__x, 0x18));
|
---|
3038 | else if constexpr (__is_avx_pd<_Tp, _Np>())
|
---|
3039 | return _mm256_movm_epi64(_mm256_fpclass_pd_mask(__x, 0x18));
|
---|
3040 | else if constexpr (__is_sse_ps<_Tp, _Np>())
|
---|
3041 | return _mm_movm_epi32(
|
---|
3042 | _mm_fpclass_ps_mask(__to_intrin(__x), 0x18));
|
---|
3043 | else if constexpr (__is_avx_ps<_Tp, _Np>())
|
---|
3044 | return _mm256_movm_epi32(_mm256_fpclass_ps_mask(__x, 0x18));
|
---|
3045 | else
|
---|
3046 | __assert_unreachable<_Tp>();
|
---|
3047 | }
|
---|
3048 | else
|
---|
3049 | #endif
|
---|
3050 | return _Base::_S_isinf(__x);
|
---|
3051 | }
|
---|
3052 |
|
---|
3053 | // }}}
|
---|
3054 | // _S_isnormal {{{
|
---|
3055 | template <typename _Tp, size_t _Np>
|
---|
3056 | _GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
|
---|
3057 | _S_isnormal(_SimdWrapper<_Tp, _Np> __x)
|
---|
3058 | {
|
---|
3059 | #if __FINITE_MATH_ONLY__
|
---|
3060 | [[maybe_unused]] constexpr int __mode = 0x26;
|
---|
3061 | #else
|
---|
3062 | [[maybe_unused]] constexpr int __mode = 0xbf;
|
---|
3063 | #endif
|
---|
3064 | if constexpr (__is_avx512_abi<_Abi>() && __have_avx512dq)
|
---|
3065 | {
|
---|
3066 | const auto __xi = __to_intrin(__x);
|
---|
3067 | const auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
3068 | if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
3069 | return __k1 ^ _mm512_mask_fpclass_ps_mask(__k1, __xi, __mode);
|
---|
3070 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
3071 | return __k1 ^ _mm512_mask_fpclass_pd_mask(__k1, __xi, __mode);
|
---|
3072 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3073 | return __k1 ^ _mm256_mask_fpclass_ps_mask(__k1, __xi, __mode);
|
---|
3074 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3075 | return __k1 ^ _mm256_mask_fpclass_pd_mask(__k1, __xi, __mode);
|
---|
3076 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3077 | return __k1 ^ _mm_mask_fpclass_ps_mask(__k1, __xi, __mode);
|
---|
3078 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3079 | return __k1 ^ _mm_mask_fpclass_pd_mask(__k1, __xi, __mode);
|
---|
3080 | else
|
---|
3081 | __assert_unreachable<_Tp>();
|
---|
3082 | }
|
---|
3083 | else if constexpr (__have_avx512dq)
|
---|
3084 | {
|
---|
3085 | if constexpr (__have_avx512vl && __is_sse_ps<_Tp, _Np>())
|
---|
3086 | return _mm_movm_epi32(
|
---|
3087 | _knot_mask8(_mm_fpclass_ps_mask(__to_intrin(__x), __mode)));
|
---|
3088 | else if constexpr (__have_avx512vl && __is_avx_ps<_Tp, _Np>())
|
---|
3089 | return _mm256_movm_epi32(
|
---|
3090 | _knot_mask8(_mm256_fpclass_ps_mask(__x, __mode)));
|
---|
3091 | else if constexpr (__is_avx512_ps<_Tp, _Np>())
|
---|
3092 | return _knot_mask16(_mm512_fpclass_ps_mask(__x, __mode));
|
---|
3093 | else if constexpr (__have_avx512vl && __is_sse_pd<_Tp, _Np>())
|
---|
3094 | return _mm_movm_epi64(
|
---|
3095 | _knot_mask8(_mm_fpclass_pd_mask(__x, __mode)));
|
---|
3096 | else if constexpr (__have_avx512vl && __is_avx_pd<_Tp, _Np>())
|
---|
3097 | return _mm256_movm_epi64(
|
---|
3098 | _knot_mask8(_mm256_fpclass_pd_mask(__x, __mode)));
|
---|
3099 | else if constexpr (__is_avx512_pd<_Tp, _Np>())
|
---|
3100 | return _knot_mask8(_mm512_fpclass_pd_mask(__x, __mode));
|
---|
3101 | else
|
---|
3102 | __assert_unreachable<_Tp>();
|
---|
3103 | }
|
---|
3104 | else if constexpr (__is_avx512_abi<_Abi>())
|
---|
3105 | {
|
---|
3106 | using _I = __int_for_sizeof_t<_Tp>;
|
---|
3107 | const auto absn = __vector_bitcast<_I>(_S_abs(__x));
|
---|
3108 | const auto minn = __vector_bitcast<_I>(
|
---|
3109 | __vector_broadcast<_Np>(__norm_min_v<_Tp>));
|
---|
3110 | #if __FINITE_MATH_ONLY__
|
---|
3111 | return _S_less_equal<_I, _Np>(minn, absn);
|
---|
3112 | #else
|
---|
3113 | const auto infn
|
---|
3114 | = __vector_bitcast<_I>(__vector_broadcast<_Np>(__infinity_v<_Tp>));
|
---|
3115 | return __and(_S_less_equal<_I, _Np>(minn, absn),
|
---|
3116 | _S_less<_I, _Np>(absn, infn));
|
---|
3117 | #endif
|
---|
3118 | }
|
---|
3119 | else
|
---|
3120 | return _Base::_S_isnormal(__x);
|
---|
3121 | }
|
---|
3122 |
|
---|
3123 | // }}}
|
---|
3124 | // _S_isnan {{{
|
---|
3125 | template <typename _Tp, size_t _Np>
|
---|
3126 | _GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
|
---|
3127 | _S_isnan(_SimdWrapper<_Tp, _Np> __x)
|
---|
3128 | { return _S_isunordered(__x, __x); }
|
---|
3129 |
|
---|
3130 | // }}}
|
---|
3131 | // _S_isunordered {{{
|
---|
3132 | template <typename _Tp, size_t _Np>
|
---|
3133 | _GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
|
---|
3134 | _S_isunordered([[maybe_unused]] _SimdWrapper<_Tp, _Np> __x,
|
---|
3135 | [[maybe_unused]] _SimdWrapper<_Tp, _Np> __y)
|
---|
3136 | {
|
---|
3137 | #if __FINITE_MATH_ONLY__
|
---|
3138 | return {}; // false
|
---|
3139 | #else
|
---|
3140 | const auto __xi = __to_intrin(__x);
|
---|
3141 | const auto __yi = __to_intrin(__y);
|
---|
3142 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
3143 | {
|
---|
3144 | constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
3145 | if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
3146 | return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_UNORD_Q);
|
---|
3147 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
3148 | return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_UNORD_Q);
|
---|
3149 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3150 | return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_UNORD_Q);
|
---|
3151 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3152 | return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_UNORD_Q);
|
---|
3153 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3154 | return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_UNORD_Q);
|
---|
3155 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3156 | return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_UNORD_Q);
|
---|
3157 | }
|
---|
3158 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3159 | return __to_masktype(_mm256_cmp_ps(__xi, __yi, _CMP_UNORD_Q));
|
---|
3160 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3161 | return __to_masktype(_mm256_cmp_pd(__xi, __yi, _CMP_UNORD_Q));
|
---|
3162 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3163 | return __auto_bitcast(_mm_cmpunord_ps(__xi, __yi));
|
---|
3164 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3165 | return __to_masktype(_mm_cmpunord_pd(__xi, __yi));
|
---|
3166 | else
|
---|
3167 | __assert_unreachable<_Tp>();
|
---|
3168 | #endif
|
---|
3169 | }
|
---|
3170 |
|
---|
3171 | // }}}
|
---|
3172 | // _S_isgreater {{{
|
---|
3173 | template <typename _Tp, size_t _Np>
|
---|
3174 | static constexpr _MaskMember<_Tp> _S_isgreater(_SimdWrapper<_Tp, _Np> __x,
|
---|
3175 | _SimdWrapper<_Tp, _Np> __y)
|
---|
3176 | {
|
---|
3177 | const auto __xi = __to_intrin(__x);
|
---|
3178 | const auto __yi = __to_intrin(__y);
|
---|
3179 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
3180 | {
|
---|
3181 | const auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
3182 | if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
3183 | return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_GT_OQ);
|
---|
3184 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
3185 | return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_GT_OQ);
|
---|
3186 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3187 | return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_GT_OQ);
|
---|
3188 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3189 | return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_GT_OQ);
|
---|
3190 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3191 | return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_GT_OQ);
|
---|
3192 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3193 | return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_GT_OQ);
|
---|
3194 | else
|
---|
3195 | __assert_unreachable<_Tp>();
|
---|
3196 | }
|
---|
3197 | else if constexpr (__have_avx)
|
---|
3198 | {
|
---|
3199 | if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3200 | return __to_masktype(_mm256_cmp_ps(__xi, __yi, _CMP_GT_OQ));
|
---|
3201 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3202 | return __to_masktype(_mm256_cmp_pd(__xi, __yi, _CMP_GT_OQ));
|
---|
3203 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3204 | return __auto_bitcast(_mm_cmp_ps(__xi, __yi, _CMP_GT_OQ));
|
---|
3205 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3206 | return __to_masktype(_mm_cmp_pd(__xi, __yi, _CMP_GT_OQ));
|
---|
3207 | else
|
---|
3208 | __assert_unreachable<_Tp>();
|
---|
3209 | }
|
---|
3210 | else if constexpr (__have_sse2 && sizeof(__xi) == 16
|
---|
3211 | && sizeof(_Tp) == 4)
|
---|
3212 | {
|
---|
3213 | const auto __xn = __vector_bitcast<int>(__xi);
|
---|
3214 | const auto __yn = __vector_bitcast<int>(__yi);
|
---|
3215 | const auto __xp = __xn < 0 ? -(__xn & 0x7fff'ffff) : __xn;
|
---|
3216 | const auto __yp = __yn < 0 ? -(__yn & 0x7fff'ffff) : __yn;
|
---|
3217 | return __auto_bitcast(
|
---|
3218 | __and(__to_masktype(_mm_cmpord_ps(__xi, __yi)), __xp > __yp));
|
---|
3219 | }
|
---|
3220 | else if constexpr (__have_sse2 && sizeof(__xi) == 16
|
---|
3221 | && sizeof(_Tp) == 8)
|
---|
3222 | return __vector_type_t<__int_with_sizeof_t<8>, 2>{
|
---|
3223 | -_mm_ucomigt_sd(__xi, __yi),
|
---|
3224 | -_mm_ucomigt_sd(_mm_unpackhi_pd(__xi, __xi),
|
---|
3225 | _mm_unpackhi_pd(__yi, __yi))};
|
---|
3226 | else
|
---|
3227 | return _Base::_S_isgreater(__x, __y);
|
---|
3228 | }
|
---|
3229 |
|
---|
3230 | // }}}
|
---|
3231 | // _S_isgreaterequal {{{
|
---|
3232 | template <typename _Tp, size_t _Np>
|
---|
3233 | static constexpr _MaskMember<_Tp>
|
---|
3234 | _S_isgreaterequal(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
|
---|
3235 | {
|
---|
3236 | const auto __xi = __to_intrin(__x);
|
---|
3237 | const auto __yi = __to_intrin(__y);
|
---|
3238 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
3239 | {
|
---|
3240 | const auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
3241 | if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
3242 | return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_GE_OQ);
|
---|
3243 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
3244 | return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_GE_OQ);
|
---|
3245 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3246 | return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_GE_OQ);
|
---|
3247 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3248 | return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_GE_OQ);
|
---|
3249 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3250 | return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_GE_OQ);
|
---|
3251 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3252 | return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_GE_OQ);
|
---|
3253 | else
|
---|
3254 | __assert_unreachable<_Tp>();
|
---|
3255 | }
|
---|
3256 | else if constexpr (__have_avx)
|
---|
3257 | {
|
---|
3258 | if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3259 | return __to_masktype(_mm256_cmp_ps(__xi, __yi, _CMP_GE_OQ));
|
---|
3260 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3261 | return __to_masktype(_mm256_cmp_pd(__xi, __yi, _CMP_GE_OQ));
|
---|
3262 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3263 | return __auto_bitcast(_mm_cmp_ps(__xi, __yi, _CMP_GE_OQ));
|
---|
3264 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3265 | return __to_masktype(_mm_cmp_pd(__xi, __yi, _CMP_GE_OQ));
|
---|
3266 | else
|
---|
3267 | __assert_unreachable<_Tp>();
|
---|
3268 | }
|
---|
3269 | else if constexpr (__have_sse2 && sizeof(__xi) == 16
|
---|
3270 | && sizeof(_Tp) == 4)
|
---|
3271 | {
|
---|
3272 | const auto __xn = __vector_bitcast<int>(__xi);
|
---|
3273 | const auto __yn = __vector_bitcast<int>(__yi);
|
---|
3274 | const auto __xp = __xn < 0 ? -(__xn & 0x7fff'ffff) : __xn;
|
---|
3275 | const auto __yp = __yn < 0 ? -(__yn & 0x7fff'ffff) : __yn;
|
---|
3276 | return __auto_bitcast(
|
---|
3277 | __and(__to_masktype(_mm_cmpord_ps(__xi, __yi)), __xp >= __yp));
|
---|
3278 | }
|
---|
3279 | else if constexpr (__have_sse2 && sizeof(__xi) == 16
|
---|
3280 | && sizeof(_Tp) == 8)
|
---|
3281 | return __vector_type_t<__int_with_sizeof_t<8>, 2>{
|
---|
3282 | -_mm_ucomige_sd(__xi, __yi),
|
---|
3283 | -_mm_ucomige_sd(_mm_unpackhi_pd(__xi, __xi),
|
---|
3284 | _mm_unpackhi_pd(__yi, __yi))};
|
---|
3285 | else
|
---|
3286 | return _Base::_S_isgreaterequal(__x, __y);
|
---|
3287 | }
|
---|
3288 |
|
---|
3289 | // }}}
|
---|
3290 | // _S_isless {{{
|
---|
3291 | template <typename _Tp, size_t _Np>
|
---|
3292 | static constexpr _MaskMember<_Tp> _S_isless(_SimdWrapper<_Tp, _Np> __x,
|
---|
3293 | _SimdWrapper<_Tp, _Np> __y)
|
---|
3294 | {
|
---|
3295 | const auto __xi = __to_intrin(__x);
|
---|
3296 | const auto __yi = __to_intrin(__y);
|
---|
3297 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
3298 | {
|
---|
3299 | const auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
3300 | if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
3301 | return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LT_OQ);
|
---|
3302 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
3303 | return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LT_OQ);
|
---|
3304 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3305 | return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LT_OQ);
|
---|
3306 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3307 | return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LT_OQ);
|
---|
3308 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3309 | return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LT_OQ);
|
---|
3310 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3311 | return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LT_OQ);
|
---|
3312 | else
|
---|
3313 | __assert_unreachable<_Tp>();
|
---|
3314 | }
|
---|
3315 | else if constexpr (__have_avx)
|
---|
3316 | {
|
---|
3317 | if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3318 | return __to_masktype(_mm256_cmp_ps(__xi, __yi, _CMP_LT_OQ));
|
---|
3319 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3320 | return __to_masktype(_mm256_cmp_pd(__xi, __yi, _CMP_LT_OQ));
|
---|
3321 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3322 | return __auto_bitcast(_mm_cmp_ps(__xi, __yi, _CMP_LT_OQ));
|
---|
3323 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3324 | return __to_masktype(_mm_cmp_pd(__xi, __yi, _CMP_LT_OQ));
|
---|
3325 | else
|
---|
3326 | __assert_unreachable<_Tp>();
|
---|
3327 | }
|
---|
3328 | else if constexpr (__have_sse2 && sizeof(__xi) == 16
|
---|
3329 | && sizeof(_Tp) == 4)
|
---|
3330 | {
|
---|
3331 | const auto __xn = __vector_bitcast<int>(__xi);
|
---|
3332 | const auto __yn = __vector_bitcast<int>(__yi);
|
---|
3333 | const auto __xp = __xn < 0 ? -(__xn & 0x7fff'ffff) : __xn;
|
---|
3334 | const auto __yp = __yn < 0 ? -(__yn & 0x7fff'ffff) : __yn;
|
---|
3335 | return __auto_bitcast(
|
---|
3336 | __and(__to_masktype(_mm_cmpord_ps(__xi, __yi)), __xp < __yp));
|
---|
3337 | }
|
---|
3338 | else if constexpr (__have_sse2 && sizeof(__xi) == 16
|
---|
3339 | && sizeof(_Tp) == 8)
|
---|
3340 | return __vector_type_t<__int_with_sizeof_t<8>, 2>{
|
---|
3341 | -_mm_ucomigt_sd(__yi, __xi),
|
---|
3342 | -_mm_ucomigt_sd(_mm_unpackhi_pd(__yi, __yi),
|
---|
3343 | _mm_unpackhi_pd(__xi, __xi))};
|
---|
3344 | else
|
---|
3345 | return _Base::_S_isless(__x, __y);
|
---|
3346 | }
|
---|
3347 |
|
---|
3348 | // }}}
|
---|
3349 | // _S_islessequal {{{
|
---|
3350 | template <typename _Tp, size_t _Np>
|
---|
3351 | static constexpr _MaskMember<_Tp>
|
---|
3352 | _S_islessequal(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
|
---|
3353 | {
|
---|
3354 | const auto __xi = __to_intrin(__x);
|
---|
3355 | const auto __yi = __to_intrin(__y);
|
---|
3356 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
3357 | {
|
---|
3358 | const auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
3359 | if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
3360 | return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LE_OQ);
|
---|
3361 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
3362 | return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LE_OQ);
|
---|
3363 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3364 | return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LE_OQ);
|
---|
3365 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3366 | return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LE_OQ);
|
---|
3367 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3368 | return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LE_OQ);
|
---|
3369 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3370 | return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LE_OQ);
|
---|
3371 | else
|
---|
3372 | __assert_unreachable<_Tp>();
|
---|
3373 | }
|
---|
3374 | else if constexpr (__have_avx)
|
---|
3375 | {
|
---|
3376 | if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3377 | return __to_masktype(_mm256_cmp_ps(__xi, __yi, _CMP_LE_OQ));
|
---|
3378 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3379 | return __to_masktype(_mm256_cmp_pd(__xi, __yi, _CMP_LE_OQ));
|
---|
3380 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3381 | return __auto_bitcast(_mm_cmp_ps(__xi, __yi, _CMP_LE_OQ));
|
---|
3382 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3383 | return __to_masktype(_mm_cmp_pd(__xi, __yi, _CMP_LE_OQ));
|
---|
3384 | else
|
---|
3385 | __assert_unreachable<_Tp>();
|
---|
3386 | }
|
---|
3387 | else if constexpr (__have_sse2 && sizeof(__xi) == 16
|
---|
3388 | && sizeof(_Tp) == 4)
|
---|
3389 | {
|
---|
3390 | const auto __xn = __vector_bitcast<int>(__xi);
|
---|
3391 | const auto __yn = __vector_bitcast<int>(__yi);
|
---|
3392 | const auto __xp = __xn < 0 ? -(__xn & 0x7fff'ffff) : __xn;
|
---|
3393 | const auto __yp = __yn < 0 ? -(__yn & 0x7fff'ffff) : __yn;
|
---|
3394 | return __auto_bitcast(
|
---|
3395 | __and(__to_masktype(_mm_cmpord_ps(__xi, __yi)), __xp <= __yp));
|
---|
3396 | }
|
---|
3397 | else if constexpr (__have_sse2 && sizeof(__xi) == 16
|
---|
3398 | && sizeof(_Tp) == 8)
|
---|
3399 | return __vector_type_t<__int_with_sizeof_t<8>, 2>{
|
---|
3400 | -_mm_ucomige_sd(__yi, __xi),
|
---|
3401 | -_mm_ucomige_sd(_mm_unpackhi_pd(__yi, __yi),
|
---|
3402 | _mm_unpackhi_pd(__xi, __xi))};
|
---|
3403 | else
|
---|
3404 | return _Base::_S_islessequal(__x, __y);
|
---|
3405 | }
|
---|
3406 |
|
---|
3407 | // }}}
|
---|
3408 | // _S_islessgreater {{{
|
---|
3409 | template <typename _Tp, size_t _Np>
|
---|
3410 | static constexpr _MaskMember<_Tp>
|
---|
3411 | _S_islessgreater(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
|
---|
3412 | {
|
---|
3413 | const auto __xi = __to_intrin(__x);
|
---|
3414 | const auto __yi = __to_intrin(__y);
|
---|
3415 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
3416 | {
|
---|
3417 | const auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
3418 | if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
|
---|
3419 | return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_NEQ_OQ);
|
---|
3420 | else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
|
---|
3421 | return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_NEQ_OQ);
|
---|
3422 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3423 | return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_NEQ_OQ);
|
---|
3424 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3425 | return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_NEQ_OQ);
|
---|
3426 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3427 | return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_NEQ_OQ);
|
---|
3428 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3429 | return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_NEQ_OQ);
|
---|
3430 | else
|
---|
3431 | __assert_unreachable<_Tp>();
|
---|
3432 | }
|
---|
3433 | else if constexpr (__have_avx)
|
---|
3434 | {
|
---|
3435 | if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
|
---|
3436 | return __to_masktype(_mm256_cmp_ps(__xi, __yi, _CMP_NEQ_OQ));
|
---|
3437 | else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
|
---|
3438 | return __to_masktype(_mm256_cmp_pd(__xi, __yi, _CMP_NEQ_OQ));
|
---|
3439 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3440 | return __auto_bitcast(_mm_cmp_ps(__xi, __yi, _CMP_NEQ_OQ));
|
---|
3441 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3442 | return __to_masktype(_mm_cmp_pd(__xi, __yi, _CMP_NEQ_OQ));
|
---|
3443 | else
|
---|
3444 | __assert_unreachable<_Tp>();
|
---|
3445 | }
|
---|
3446 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
|
---|
3447 | return __auto_bitcast(
|
---|
3448 | __and(_mm_cmpord_ps(__xi, __yi), _mm_cmpneq_ps(__xi, __yi)));
|
---|
3449 | else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
|
---|
3450 | return __to_masktype(
|
---|
3451 | __and(_mm_cmpord_pd(__xi, __yi), _mm_cmpneq_pd(__xi, __yi)));
|
---|
3452 | else
|
---|
3453 | __assert_unreachable<_Tp>();
|
---|
3454 | }
|
---|
3455 |
|
---|
3456 | //}}} }}}
|
---|
3457 | };
|
---|
3458 |
|
---|
3459 | // }}}
|
---|
3460 | // _MaskImplX86Mixin {{{
|
---|
3461 | struct _MaskImplX86Mixin
|
---|
3462 | {
|
---|
3463 | template <typename _Tp>
|
---|
3464 | using _TypeTag = _Tp*;
|
---|
3465 |
|
---|
3466 | using _Base = _MaskImplBuiltinMixin;
|
---|
3467 |
|
---|
3468 | // _S_to_maskvector(bool) {{{
|
---|
3469 | template <typename _Up, size_t _ToN = 1, typename _Tp>
|
---|
3470 | _GLIBCXX_SIMD_INTRINSIC static constexpr enable_if_t<
|
---|
3471 | is_same_v<_Tp, bool>, _SimdWrapper<_Up, _ToN>>
|
---|
3472 | _S_to_maskvector(_Tp __x)
|
---|
3473 | {
|
---|
3474 | static_assert(is_same_v<_Up, __int_for_sizeof_t<_Up>>);
|
---|
3475 | return __x ? __vector_type_t<_Up, _ToN>{~_Up()}
|
---|
3476 | : __vector_type_t<_Up, _ToN>();
|
---|
3477 | }
|
---|
3478 |
|
---|
3479 | // }}}
|
---|
3480 | // _S_to_maskvector(_SanitizedBitMask) {{{
|
---|
3481 | template <typename _Up, size_t _UpN = 0, size_t _Np,
|
---|
3482 | size_t _ToN = _UpN == 0 ? _Np : _UpN>
|
---|
3483 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Up, _ToN>
|
---|
3484 | _S_to_maskvector(_SanitizedBitMask<_Np> __x)
|
---|
3485 | {
|
---|
3486 | static_assert(is_same_v<_Up, __int_for_sizeof_t<_Up>>);
|
---|
3487 | using _UV = __vector_type_t<_Up, _ToN>;
|
---|
3488 | using _UI = __intrinsic_type_t<_Up, _ToN>;
|
---|
3489 | [[maybe_unused]] const auto __k = __x._M_to_bits();
|
---|
3490 | if constexpr (_Np == 1)
|
---|
3491 | return _S_to_maskvector<_Up, _ToN>(__k);
|
---|
3492 | else if (__x._M_is_constprop() || __builtin_is_constant_evaluated())
|
---|
3493 | return __generate_from_n_evaluations<std::min(_ToN, _Np), _UV>(
|
---|
3494 | [&](auto __i) -> _Up { return -__x[__i.value]; });
|
---|
3495 | else if constexpr (sizeof(_Up) == 1)
|
---|
3496 | {
|
---|
3497 | if constexpr (sizeof(_UI) == 16)
|
---|
3498 | {
|
---|
3499 | if constexpr (__have_avx512bw_vl)
|
---|
3500 | return __intrin_bitcast<_UV>(_mm_movm_epi8(__k));
|
---|
3501 | else if constexpr (__have_avx512bw)
|
---|
3502 | return __intrin_bitcast<_UV>(__lo128(_mm512_movm_epi8(__k)));
|
---|
3503 | else if constexpr (__have_avx512f)
|
---|
3504 | {
|
---|
3505 | auto __as32bits = _mm512_maskz_mov_epi32(__k, ~__m512i());
|
---|
3506 | auto __as16bits
|
---|
3507 | = __xzyw(_mm256_packs_epi32(__lo256(__as32bits),
|
---|
3508 | __hi256(__as32bits)));
|
---|
3509 | return __intrin_bitcast<_UV>(
|
---|
3510 | _mm_packs_epi16(__lo128(__as16bits), __hi128(__as16bits)));
|
---|
3511 | }
|
---|
3512 | else if constexpr (__have_ssse3)
|
---|
3513 | {
|
---|
3514 | const auto __bitmask = __to_intrin(
|
---|
3515 | __make_vector<_UChar>(1, 2, 4, 8, 16, 32, 64, 128, 1, 2, 4,
|
---|
3516 | 8, 16, 32, 64, 128));
|
---|
3517 | return __intrin_bitcast<_UV>(
|
---|
3518 | __vector_bitcast<_Up>(
|
---|
3519 | _mm_shuffle_epi8(__to_intrin(
|
---|
3520 | __vector_type_t<_ULLong, 2>{__k}),
|
---|
3521 | _mm_setr_epi8(0, 0, 0, 0, 0, 0, 0, 0, 1,
|
---|
3522 | 1, 1, 1, 1, 1, 1, 1))
|
---|
3523 | & __bitmask)
|
---|
3524 | != 0);
|
---|
3525 | }
|
---|
3526 | // else fall through
|
---|
3527 | }
|
---|
3528 | else if constexpr (sizeof(_UI) == 32)
|
---|
3529 | {
|
---|
3530 | if constexpr (__have_avx512bw_vl)
|
---|
3531 | return __vector_bitcast<_Up>(_mm256_movm_epi8(__k));
|
---|
3532 | else if constexpr (__have_avx512bw)
|
---|
3533 | return __vector_bitcast<_Up>(__lo256(_mm512_movm_epi8(__k)));
|
---|
3534 | else if constexpr (__have_avx512f)
|
---|
3535 | {
|
---|
3536 | auto __as16bits = // 0 16 1 17 ... 15 31
|
---|
3537 | _mm512_srli_epi32(_mm512_maskz_mov_epi32(__k, ~__m512i()),
|
---|
3538 | 16)
|
---|
3539 | | _mm512_slli_epi32(_mm512_maskz_mov_epi32(__k >> 16,
|
---|
3540 | ~__m512i()),
|
---|
3541 | 16);
|
---|
3542 | auto __0_16_1_17 = __xzyw(_mm256_packs_epi16(
|
---|
3543 | __lo256(__as16bits),
|
---|
3544 | __hi256(__as16bits)) // 0 16 1 17 2 18 3 19 8 24 9 25 ...
|
---|
3545 | );
|
---|
3546 | // deinterleave:
|
---|
3547 | return __vector_bitcast<_Up>(__xzyw(_mm256_shuffle_epi8(
|
---|
3548 | __0_16_1_17, // 0 16 1 17 2 ...
|
---|
3549 | _mm256_setr_epi8(0, 2, 4, 6, 8, 10, 12, 14, 1, 3, 5, 7, 9,
|
---|
3550 | 11, 13, 15, 0, 2, 4, 6, 8, 10, 12, 14, 1,
|
---|
3551 | 3, 5, 7, 9, 11, 13,
|
---|
3552 | 15)))); // 0-7 16-23 8-15 24-31 -> xzyw
|
---|
3553 | // 0-3 8-11 16-19 24-27
|
---|
3554 | // 4-7 12-15 20-23 28-31
|
---|
3555 | }
|
---|
3556 | else if constexpr (__have_avx2)
|
---|
3557 | {
|
---|
3558 | const auto __bitmask
|
---|
3559 | = _mm256_broadcastsi128_si256(__to_intrin(
|
---|
3560 | __make_vector<_UChar>(1, 2, 4, 8, 16, 32, 64, 128, 1, 2,
|
---|
3561 | 4, 8, 16, 32, 64, 128)));
|
---|
3562 | return __vector_bitcast<_Up>(
|
---|
3563 | __vector_bitcast<_Up>(
|
---|
3564 | _mm256_shuffle_epi8(
|
---|
3565 | _mm256_broadcastsi128_si256(
|
---|
3566 | __to_intrin(__vector_type_t<_ULLong, 2>{__k})),
|
---|
3567 | _mm256_setr_epi8(0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1,
|
---|
3568 | 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3,
|
---|
3569 | 3, 3, 3, 3, 3, 3))
|
---|
3570 | & __bitmask)
|
---|
3571 | != 0);
|
---|
3572 | }
|
---|
3573 | // else fall through
|
---|
3574 | }
|
---|
3575 | else if constexpr (sizeof(_UI) == 64)
|
---|
3576 | return reinterpret_cast<_UV>(_mm512_movm_epi8(__k));
|
---|
3577 | if constexpr (std::min(_ToN, _Np) <= 4)
|
---|
3578 | {
|
---|
3579 | if constexpr (_Np > 7) // avoid overflow
|
---|
3580 | __x &= _SanitizedBitMask<_Np>(0x0f);
|
---|
3581 | const _UInt __char_mask
|
---|
3582 | = ((_UInt(__x.to_ulong()) * 0x00204081U) & 0x01010101ULL)
|
---|
3583 | * 0xff;
|
---|
3584 | _UV __r = {};
|
---|
3585 | __builtin_memcpy(&__r, &__char_mask,
|
---|
3586 | std::min(sizeof(__r), sizeof(__char_mask)));
|
---|
3587 | return __r;
|
---|
3588 | }
|
---|
3589 | else if constexpr (std::min(_ToN, _Np) <= 7)
|
---|
3590 | {
|
---|
3591 | if constexpr (_Np > 7) // avoid overflow
|
---|
3592 | __x &= _SanitizedBitMask<_Np>(0x7f);
|
---|
3593 | const _ULLong __char_mask
|
---|
3594 | = ((__x.to_ulong() * 0x40810204081ULL) & 0x0101010101010101ULL)
|
---|
3595 | * 0xff;
|
---|
3596 | _UV __r = {};
|
---|
3597 | __builtin_memcpy(&__r, &__char_mask,
|
---|
3598 | std::min(sizeof(__r), sizeof(__char_mask)));
|
---|
3599 | return __r;
|
---|
3600 | }
|
---|
3601 | }
|
---|
3602 | else if constexpr (sizeof(_Up) == 2)
|
---|
3603 | {
|
---|
3604 | if constexpr (sizeof(_UI) == 16)
|
---|
3605 | {
|
---|
3606 | if constexpr (__have_avx512bw_vl)
|
---|
3607 | return __intrin_bitcast<_UV>(_mm_movm_epi16(__k));
|
---|
3608 | else if constexpr (__have_avx512bw)
|
---|
3609 | return __intrin_bitcast<_UV>(__lo128(_mm512_movm_epi16(__k)));
|
---|
3610 | else if constexpr (__have_avx512f)
|
---|
3611 | {
|
---|
3612 | __m256i __as32bits = {};
|
---|
3613 | if constexpr (__have_avx512vl)
|
---|
3614 | __as32bits = _mm256_maskz_mov_epi32(__k, ~__m256i());
|
---|
3615 | else
|
---|
3616 | __as32bits
|
---|
3617 | = __lo256(_mm512_maskz_mov_epi32(__k, ~__m512i()));
|
---|
3618 | return __intrin_bitcast<_UV>(
|
---|
3619 | _mm_packs_epi32(__lo128(__as32bits), __hi128(__as32bits)));
|
---|
3620 | }
|
---|
3621 | // else fall through
|
---|
3622 | }
|
---|
3623 | else if constexpr (sizeof(_UI) == 32)
|
---|
3624 | {
|
---|
3625 | if constexpr (__have_avx512bw_vl)
|
---|
3626 | return __vector_bitcast<_Up>(_mm256_movm_epi16(__k));
|
---|
3627 | else if constexpr (__have_avx512bw)
|
---|
3628 | return __vector_bitcast<_Up>(__lo256(_mm512_movm_epi16(__k)));
|
---|
3629 | else if constexpr (__have_avx512f)
|
---|
3630 | {
|
---|
3631 | auto __as32bits = _mm512_maskz_mov_epi32(__k, ~__m512i());
|
---|
3632 | return __vector_bitcast<_Up>(
|
---|
3633 | __xzyw(_mm256_packs_epi32(__lo256(__as32bits),
|
---|
3634 | __hi256(__as32bits))));
|
---|
3635 | }
|
---|
3636 | // else fall through
|
---|
3637 | }
|
---|
3638 | else if constexpr (sizeof(_UI) == 64)
|
---|
3639 | return __vector_bitcast<_Up>(_mm512_movm_epi16(__k));
|
---|
3640 | }
|
---|
3641 | else if constexpr (sizeof(_Up) == 4)
|
---|
3642 | {
|
---|
3643 | if constexpr (sizeof(_UI) == 16)
|
---|
3644 | {
|
---|
3645 | if constexpr (__have_avx512dq_vl)
|
---|
3646 | return __intrin_bitcast<_UV>(_mm_movm_epi32(__k));
|
---|
3647 | else if constexpr (__have_avx512dq)
|
---|
3648 | return __intrin_bitcast<_UV>(__lo128(_mm512_movm_epi32(__k)));
|
---|
3649 | else if constexpr (__have_avx512vl)
|
---|
3650 | return __intrin_bitcast<_UV>(
|
---|
3651 | _mm_maskz_mov_epi32(__k, ~__m128i()));
|
---|
3652 | else if constexpr (__have_avx512f)
|
---|
3653 | return __intrin_bitcast<_UV>(
|
---|
3654 | __lo128(_mm512_maskz_mov_epi32(__k, ~__m512i())));
|
---|
3655 | // else fall through
|
---|
3656 | }
|
---|
3657 | else if constexpr (sizeof(_UI) == 32)
|
---|
3658 | {
|
---|
3659 | if constexpr (__have_avx512dq_vl)
|
---|
3660 | return __vector_bitcast<_Up>(_mm256_movm_epi32(__k));
|
---|
3661 | else if constexpr (__have_avx512dq)
|
---|
3662 | return __vector_bitcast<_Up>(__lo256(_mm512_movm_epi32(__k)));
|
---|
3663 | else if constexpr (__have_avx512vl)
|
---|
3664 | return __vector_bitcast<_Up>(
|
---|
3665 | _mm256_maskz_mov_epi32(__k, ~__m256i()));
|
---|
3666 | else if constexpr (__have_avx512f)
|
---|
3667 | return __vector_bitcast<_Up>(
|
---|
3668 | __lo256(_mm512_maskz_mov_epi32(__k, ~__m512i())));
|
---|
3669 | // else fall through
|
---|
3670 | }
|
---|
3671 | else if constexpr (sizeof(_UI) == 64)
|
---|
3672 | return __vector_bitcast<_Up>(
|
---|
3673 | __have_avx512dq ? _mm512_movm_epi32(__k)
|
---|
3674 | : _mm512_maskz_mov_epi32(__k, ~__m512i()));
|
---|
3675 | }
|
---|
3676 | else if constexpr (sizeof(_Up) == 8)
|
---|
3677 | {
|
---|
3678 | if constexpr (sizeof(_UI) == 16)
|
---|
3679 | {
|
---|
3680 | if constexpr (__have_avx512dq_vl)
|
---|
3681 | return __vector_bitcast<_Up>(_mm_movm_epi64(__k));
|
---|
3682 | else if constexpr (__have_avx512dq)
|
---|
3683 | return __vector_bitcast<_Up>(__lo128(_mm512_movm_epi64(__k)));
|
---|
3684 | else if constexpr (__have_avx512vl)
|
---|
3685 | return __vector_bitcast<_Up>(
|
---|
3686 | _mm_maskz_mov_epi64(__k, ~__m128i()));
|
---|
3687 | else if constexpr (__have_avx512f)
|
---|
3688 | return __vector_bitcast<_Up>(
|
---|
3689 | __lo128(_mm512_maskz_mov_epi64(__k, ~__m512i())));
|
---|
3690 | // else fall through
|
---|
3691 | }
|
---|
3692 | else if constexpr (sizeof(_UI) == 32)
|
---|
3693 | {
|
---|
3694 | if constexpr (__have_avx512dq_vl)
|
---|
3695 | return __vector_bitcast<_Up>(_mm256_movm_epi64(__k));
|
---|
3696 | else if constexpr (__have_avx512dq)
|
---|
3697 | return __vector_bitcast<_Up>(__lo256(_mm512_movm_epi64(__k)));
|
---|
3698 | else if constexpr (__have_avx512vl)
|
---|
3699 | return __vector_bitcast<_Up>(
|
---|
3700 | _mm256_maskz_mov_epi64(__k, ~__m256i()));
|
---|
3701 | else if constexpr (__have_avx512f)
|
---|
3702 | return __vector_bitcast<_Up>(
|
---|
3703 | __lo256(_mm512_maskz_mov_epi64(__k, ~__m512i())));
|
---|
3704 | // else fall through
|
---|
3705 | }
|
---|
3706 | else if constexpr (sizeof(_UI) == 64)
|
---|
3707 | return __vector_bitcast<_Up>(
|
---|
3708 | __have_avx512dq ? _mm512_movm_epi64(__k)
|
---|
3709 | : _mm512_maskz_mov_epi64(__k, ~__m512i()));
|
---|
3710 | }
|
---|
3711 |
|
---|
3712 | using _UpUInt = make_unsigned_t<_Up>;
|
---|
3713 | using _V = __vector_type_t<_UpUInt, _ToN>;
|
---|
3714 | constexpr size_t __bits_per_element = sizeof(_Up) * __CHAR_BIT__;
|
---|
3715 | if constexpr (_ToN == 2)
|
---|
3716 | {
|
---|
3717 | return __vector_bitcast<_Up>(_V{_UpUInt(-__x[0]), _UpUInt(-__x[1])});
|
---|
3718 | }
|
---|
3719 | else if constexpr (!__have_avx2 && __have_avx && sizeof(_V) == 32)
|
---|
3720 | {
|
---|
3721 | if constexpr (sizeof(_Up) == 4)
|
---|
3722 | return __vector_bitcast<_Up>(_mm256_cmp_ps(
|
---|
3723 | _mm256_and_ps(_mm256_castsi256_ps(_mm256_set1_epi32(__k)),
|
---|
3724 | _mm256_castsi256_ps(_mm256_setr_epi32(
|
---|
3725 | 0x01, 0x02, 0x04, 0x08, 0x10, 0x20, 0x40, 0x80))),
|
---|
3726 | _mm256_setzero_ps(), _CMP_NEQ_UQ));
|
---|
3727 | else if constexpr (sizeof(_Up) == 8)
|
---|
3728 | return __vector_bitcast<_Up>(_mm256_cmp_pd(
|
---|
3729 | _mm256_and_pd(_mm256_castsi256_pd(_mm256_set1_epi64x(__k)),
|
---|
3730 | _mm256_castsi256_pd(
|
---|
3731 | _mm256_setr_epi64x(0x01, 0x02, 0x04, 0x08))),
|
---|
3732 | _mm256_setzero_pd(), _CMP_NEQ_UQ));
|
---|
3733 | else
|
---|
3734 | __assert_unreachable<_Up>();
|
---|
3735 | }
|
---|
3736 | else if constexpr (__bits_per_element >= _ToN)
|
---|
3737 | {
|
---|
3738 | constexpr auto __bitmask
|
---|
3739 | = __generate_vector<_V>([](auto __i) constexpr->_UpUInt {
|
---|
3740 | return __i < _ToN ? 1ull << __i : 0;
|
---|
3741 | });
|
---|
3742 | const auto __bits
|
---|
3743 | = __vector_broadcast<_ToN, _UpUInt>(__k) & __bitmask;
|
---|
3744 | if constexpr (__bits_per_element > _ToN)
|
---|
3745 | return __vector_bitcast<_Up>(__bits) > 0;
|
---|
3746 | else
|
---|
3747 | return __vector_bitcast<_Up>(__bits != 0);
|
---|
3748 | }
|
---|
3749 | else
|
---|
3750 | {
|
---|
3751 | const _V __tmp
|
---|
3752 | = __generate_vector<_V>([&](auto __i) constexpr {
|
---|
3753 | return static_cast<_UpUInt>(
|
---|
3754 | __k >> (__bits_per_element * (__i / __bits_per_element)));
|
---|
3755 | })
|
---|
3756 | & __generate_vector<_V>([](auto __i) constexpr {
|
---|
3757 | return static_cast<_UpUInt>(1ull
|
---|
3758 | << (__i % __bits_per_element));
|
---|
3759 | }); // mask bit index
|
---|
3760 | return __intrin_bitcast<_UV>(__tmp != _V());
|
---|
3761 | }
|
---|
3762 | }
|
---|
3763 |
|
---|
3764 | // }}}
|
---|
3765 | // _S_to_maskvector(_SimdWrapper) {{{
|
---|
3766 | template <typename _Up, size_t _UpN = 0, typename _Tp, size_t _Np,
|
---|
3767 | size_t _ToN = _UpN == 0 ? _Np : _UpN>
|
---|
3768 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Up, _ToN>
|
---|
3769 | _S_to_maskvector(_SimdWrapper<_Tp, _Np> __x)
|
---|
3770 | {
|
---|
3771 | static_assert(is_same_v<_Up, __int_for_sizeof_t<_Up>>);
|
---|
3772 | using _TW = _SimdWrapper<_Tp, _Np>;
|
---|
3773 | using _UW = _SimdWrapper<_Up, _ToN>;
|
---|
3774 | using _UI = __intrinsic_type_t<_Up, _ToN>;
|
---|
3775 | if constexpr (is_same_v<_Tp, bool>) // bits -> vector
|
---|
3776 | return _S_to_maskvector<_Up, _ToN>(
|
---|
3777 | _BitMask<_Np>(__x._M_data)._M_sanitized());
|
---|
3778 | // vector -> vector bitcast
|
---|
3779 | else if constexpr (sizeof(_Up) == sizeof(_Tp)
|
---|
3780 | && sizeof(_TW) == sizeof(_UW))
|
---|
3781 | return __wrapper_bitcast<_Up, _ToN>(
|
---|
3782 | _ToN <= _Np
|
---|
3783 | ? __x
|
---|
3784 | : simd_abi::_VecBuiltin<sizeof(_Tp) * _Np>::_S_masked(__x));
|
---|
3785 | else // vector -> vector {{{
|
---|
3786 | {
|
---|
3787 | if (__x._M_is_constprop() || __builtin_is_constant_evaluated())
|
---|
3788 | {
|
---|
3789 | const auto __y = __vector_bitcast<__int_for_sizeof_t<_Tp>>(__x);
|
---|
3790 | return __generate_from_n_evaluations<std::min(_ToN, _Np),
|
---|
3791 | __vector_type_t<_Up, _ToN>>(
|
---|
3792 | [&](auto __i) -> _Up { return __y[__i.value]; });
|
---|
3793 | }
|
---|
3794 | using _To = __vector_type_t<_Up, _ToN>;
|
---|
3795 | [[maybe_unused]] constexpr size_t _FromN = _Np;
|
---|
3796 | constexpr int _FromBytes = sizeof(_Tp);
|
---|
3797 | constexpr int _ToBytes = sizeof(_Up);
|
---|
3798 | const auto __k = __x._M_data;
|
---|
3799 |
|
---|
3800 | if constexpr (_FromBytes == _ToBytes)
|
---|
3801 | return __intrin_bitcast<_To>(__k);
|
---|
3802 | else if constexpr (sizeof(_UI) == 16 && sizeof(__k) == 16)
|
---|
3803 | { // SSE -> SSE {{{
|
---|
3804 | if constexpr (_FromBytes == 4 && _ToBytes == 8)
|
---|
3805 | return __intrin_bitcast<_To>(__interleave128_lo(__k, __k));
|
---|
3806 | else if constexpr (_FromBytes == 2 && _ToBytes == 8)
|
---|
3807 | {
|
---|
3808 | const auto __y
|
---|
3809 | = __vector_bitcast<int>(__interleave128_lo(__k, __k));
|
---|
3810 | return __intrin_bitcast<_To>(__interleave128_lo(__y, __y));
|
---|
3811 | }
|
---|
3812 | else if constexpr (_FromBytes == 1 && _ToBytes == 8)
|
---|
3813 | {
|
---|
3814 | auto __y
|
---|
3815 | = __vector_bitcast<short>(__interleave128_lo(__k, __k));
|
---|
3816 | auto __z
|
---|
3817 | = __vector_bitcast<int>(__interleave128_lo(__y, __y));
|
---|
3818 | return __intrin_bitcast<_To>(__interleave128_lo(__z, __z));
|
---|
3819 | }
|
---|
3820 | else if constexpr (_FromBytes == 8 && _ToBytes == 4
|
---|
3821 | && __have_sse2)
|
---|
3822 | return __intrin_bitcast<_To>(
|
---|
3823 | _mm_packs_epi32(__vector_bitcast<_LLong>(__k), __m128i()));
|
---|
3824 | else if constexpr (_FromBytes == 8 && _ToBytes == 4)
|
---|
3825 | return __vector_shuffle<1, 3, 6, 7>(__vector_bitcast<_Up>(__k),
|
---|
3826 | _UI());
|
---|
3827 | else if constexpr (_FromBytes == 2 && _ToBytes == 4)
|
---|
3828 | return __intrin_bitcast<_To>(__interleave128_lo(__k, __k));
|
---|
3829 | else if constexpr (_FromBytes == 1 && _ToBytes == 4)
|
---|
3830 | {
|
---|
3831 | const auto __y
|
---|
3832 | = __vector_bitcast<short>(__interleave128_lo(__k, __k));
|
---|
3833 | return __intrin_bitcast<_To>(__interleave128_lo(__y, __y));
|
---|
3834 | }
|
---|
3835 | else if constexpr (_FromBytes == 8 && _ToBytes == 2)
|
---|
3836 | {
|
---|
3837 | if constexpr (__have_sse2 && !__have_ssse3)
|
---|
3838 | return __intrin_bitcast<_To>(_mm_packs_epi32(
|
---|
3839 | _mm_packs_epi32(__vector_bitcast<_LLong>(__k), __m128i()),
|
---|
3840 | __m128i()));
|
---|
3841 | else
|
---|
3842 | return __intrin_bitcast<_To>(
|
---|
3843 | __vector_permute<3, 7, -1, -1, -1, -1, -1, -1>(
|
---|
3844 | __vector_bitcast<_Up>(__k)));
|
---|
3845 | }
|
---|
3846 | else if constexpr (_FromBytes == 4 && _ToBytes == 2)
|
---|
3847 | return __intrin_bitcast<_To>(
|
---|
3848 | _mm_packs_epi32(__vector_bitcast<_LLong>(__k), __m128i()));
|
---|
3849 | else if constexpr (_FromBytes == 1 && _ToBytes == 2)
|
---|
3850 | return __intrin_bitcast<_To>(__interleave128_lo(__k, __k));
|
---|
3851 | else if constexpr (_FromBytes == 8 && _ToBytes == 1
|
---|
3852 | && __have_ssse3)
|
---|
3853 | return __intrin_bitcast<_To>(
|
---|
3854 | _mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
|
---|
3855 | _mm_setr_epi8(7, 15, -1, -1, -1, -1, -1, -1,
|
---|
3856 | -1, -1, -1, -1, -1, -1, -1,
|
---|
3857 | -1)));
|
---|
3858 | else if constexpr (_FromBytes == 8 && _ToBytes == 1)
|
---|
3859 | {
|
---|
3860 | auto __y
|
---|
3861 | = _mm_packs_epi32(__vector_bitcast<_LLong>(__k), __m128i());
|
---|
3862 | __y = _mm_packs_epi32(__y, __m128i());
|
---|
3863 | return __intrin_bitcast<_To>(_mm_packs_epi16(__y, __m128i()));
|
---|
3864 | }
|
---|
3865 | else if constexpr (_FromBytes == 4 && _ToBytes == 1
|
---|
3866 | && __have_ssse3)
|
---|
3867 | return __intrin_bitcast<_To>(
|
---|
3868 | _mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
|
---|
3869 | _mm_setr_epi8(3, 7, 11, 15, -1, -1, -1, -1,
|
---|
3870 | -1, -1, -1, -1, -1, -1, -1,
|
---|
3871 | -1)));
|
---|
3872 | else if constexpr (_FromBytes == 4 && _ToBytes == 1)
|
---|
3873 | {
|
---|
3874 | const auto __y
|
---|
3875 | = _mm_packs_epi32(__vector_bitcast<_LLong>(__k), __m128i());
|
---|
3876 | return __intrin_bitcast<_To>(_mm_packs_epi16(__y, __m128i()));
|
---|
3877 | }
|
---|
3878 | else if constexpr (_FromBytes == 2 && _ToBytes == 1)
|
---|
3879 | return __intrin_bitcast<_To>(
|
---|
3880 | _mm_packs_epi16(__vector_bitcast<_LLong>(__k), __m128i()));
|
---|
3881 | else
|
---|
3882 | __assert_unreachable<_Tp>();
|
---|
3883 | } // }}}
|
---|
3884 | else if constexpr (sizeof(_UI) == 32 && sizeof(__k) == 32)
|
---|
3885 | { // AVX -> AVX {{{
|
---|
3886 | if constexpr (_FromBytes == _ToBytes)
|
---|
3887 | __assert_unreachable<_Tp>();
|
---|
3888 | else if constexpr (_FromBytes == _ToBytes * 2)
|
---|
3889 | {
|
---|
3890 | const auto __y = __vector_bitcast<_LLong>(__k);
|
---|
3891 | return __intrin_bitcast<_To>(_mm256_castsi128_si256(
|
---|
3892 | _mm_packs_epi16(__lo128(__y), __hi128(__y))));
|
---|
3893 | }
|
---|
3894 | else if constexpr (_FromBytes == _ToBytes * 4)
|
---|
3895 | {
|
---|
3896 | const auto __y = __vector_bitcast<_LLong>(__k);
|
---|
3897 | return __intrin_bitcast<_To>(_mm256_castsi128_si256(
|
---|
3898 | _mm_packs_epi16(_mm_packs_epi16(__lo128(__y), __hi128(__y)),
|
---|
3899 | __m128i())));
|
---|
3900 | }
|
---|
3901 | else if constexpr (_FromBytes == _ToBytes * 8)
|
---|
3902 | {
|
---|
3903 | const auto __y = __vector_bitcast<_LLong>(__k);
|
---|
3904 | return __intrin_bitcast<_To>(
|
---|
3905 | _mm256_castsi128_si256(_mm_shuffle_epi8(
|
---|
3906 | _mm_packs_epi16(__lo128(__y), __hi128(__y)),
|
---|
3907 | _mm_setr_epi8(3, 7, 11, 15, -1, -1, -1, -1, -1, -1, -1,
|
---|
3908 | -1, -1, -1, -1, -1))));
|
---|
3909 | }
|
---|
3910 | else if constexpr (_FromBytes * 2 == _ToBytes)
|
---|
3911 | {
|
---|
3912 | auto __y = __xzyw(__to_intrin(__k));
|
---|
3913 | if constexpr (is_floating_point_v<
|
---|
3914 | _Tp> || (!__have_avx2 && _FromBytes == 4))
|
---|
3915 | {
|
---|
3916 | const auto __yy = __vector_bitcast<float>(__y);
|
---|
3917 | return __intrin_bitcast<_To>(
|
---|
3918 | _mm256_unpacklo_ps(__yy, __yy));
|
---|
3919 | }
|
---|
3920 | else
|
---|
3921 | return __intrin_bitcast<_To>(
|
---|
3922 | _mm256_unpacklo_epi8(__y, __y));
|
---|
3923 | }
|
---|
3924 | else if constexpr (_FromBytes * 4 == _ToBytes)
|
---|
3925 | {
|
---|
3926 | auto __y
|
---|
3927 | = _mm_unpacklo_epi8(__lo128(__vector_bitcast<_LLong>(__k)),
|
---|
3928 | __lo128(__vector_bitcast<_LLong>(
|
---|
3929 | __k))); // drops 3/4 of input
|
---|
3930 | return __intrin_bitcast<_To>(
|
---|
3931 | __concat(_mm_unpacklo_epi16(__y, __y),
|
---|
3932 | _mm_unpackhi_epi16(__y, __y)));
|
---|
3933 | }
|
---|
3934 | else if constexpr (_FromBytes == 1 && _ToBytes == 8)
|
---|
3935 | {
|
---|
3936 | auto __y
|
---|
3937 | = _mm_unpacklo_epi8(__lo128(__vector_bitcast<_LLong>(__k)),
|
---|
3938 | __lo128(__vector_bitcast<_LLong>(
|
---|
3939 | __k))); // drops 3/4 of input
|
---|
3940 | __y
|
---|
3941 | = _mm_unpacklo_epi16(__y,
|
---|
3942 | __y); // drops another 1/2 => 7/8 total
|
---|
3943 | return __intrin_bitcast<_To>(
|
---|
3944 | __concat(_mm_unpacklo_epi32(__y, __y),
|
---|
3945 | _mm_unpackhi_epi32(__y, __y)));
|
---|
3946 | }
|
---|
3947 | else
|
---|
3948 | __assert_unreachable<_Tp>();
|
---|
3949 | } // }}}
|
---|
3950 | else if constexpr (sizeof(_UI) == 32 && sizeof(__k) == 16)
|
---|
3951 | { // SSE -> AVX {{{
|
---|
3952 | if constexpr (_FromBytes == _ToBytes)
|
---|
3953 | return __intrin_bitcast<_To>(
|
---|
3954 | __intrinsic_type_t<_Tp, 32 / sizeof(_Tp)>(
|
---|
3955 | __zero_extend(__to_intrin(__k))));
|
---|
3956 | else if constexpr (_FromBytes * 2 == _ToBytes)
|
---|
3957 | { // keep all
|
---|
3958 | return __intrin_bitcast<_To>(
|
---|
3959 | __concat(_mm_unpacklo_epi8(__vector_bitcast<_LLong>(__k),
|
---|
3960 | __vector_bitcast<_LLong>(__k)),
|
---|
3961 | _mm_unpackhi_epi8(__vector_bitcast<_LLong>(__k),
|
---|
3962 | __vector_bitcast<_LLong>(__k))));
|
---|
3963 | }
|
---|
3964 | else if constexpr (_FromBytes * 4 == _ToBytes)
|
---|
3965 | {
|
---|
3966 | if constexpr (__have_avx2)
|
---|
3967 | {
|
---|
3968 | return __intrin_bitcast<_To>(_mm256_shuffle_epi8(
|
---|
3969 | __concat(__vector_bitcast<_LLong>(__k),
|
---|
3970 | __vector_bitcast<_LLong>(__k)),
|
---|
3971 | _mm256_setr_epi8(0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 3,
|
---|
3972 | 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6,
|
---|
3973 | 6, 6, 7, 7, 7, 7)));
|
---|
3974 | }
|
---|
3975 | else
|
---|
3976 | {
|
---|
3977 | return __intrin_bitcast<_To>(__concat(
|
---|
3978 | _mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
|
---|
3979 | _mm_setr_epi8(0, 0, 0, 0, 1, 1, 1, 1,
|
---|
3980 | 2, 2, 2, 2, 3, 3, 3, 3)),
|
---|
3981 | _mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
|
---|
3982 | _mm_setr_epi8(4, 4, 4, 4, 5, 5, 5, 5,
|
---|
3983 | 6, 6, 6, 6, 7, 7, 7,
|
---|
3984 | 7))));
|
---|
3985 | }
|
---|
3986 | }
|
---|
3987 | else if constexpr (_FromBytes * 8 == _ToBytes)
|
---|
3988 | {
|
---|
3989 | if constexpr (__have_avx2)
|
---|
3990 | {
|
---|
3991 | return __intrin_bitcast<_To>(_mm256_shuffle_epi8(
|
---|
3992 | __concat(__vector_bitcast<_LLong>(__k),
|
---|
3993 | __vector_bitcast<_LLong>(__k)),
|
---|
3994 | _mm256_setr_epi8(0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1,
|
---|
3995 | 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3,
|
---|
3996 | 3, 3, 3, 3, 3, 3)));
|
---|
3997 | }
|
---|
3998 | else
|
---|
3999 | {
|
---|
4000 | return __intrin_bitcast<_To>(__concat(
|
---|
4001 | _mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
|
---|
4002 | _mm_setr_epi8(0, 0, 0, 0, 0, 0, 0, 0,
|
---|
4003 | 1, 1, 1, 1, 1, 1, 1, 1)),
|
---|
4004 | _mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
|
---|
4005 | _mm_setr_epi8(2, 2, 2, 2, 2, 2, 2, 2,
|
---|
4006 | 3, 3, 3, 3, 3, 3, 3,
|
---|
4007 | 3))));
|
---|
4008 | }
|
---|
4009 | }
|
---|
4010 | else if constexpr (_FromBytes == _ToBytes * 2)
|
---|
4011 | return __intrin_bitcast<_To>(__m256i(__zero_extend(
|
---|
4012 | _mm_packs_epi16(__vector_bitcast<_LLong>(__k), __m128i()))));
|
---|
4013 | else if constexpr (_FromBytes == 8 && _ToBytes == 2)
|
---|
4014 | {
|
---|
4015 | return __intrin_bitcast<_To>(__m256i(__zero_extend(
|
---|
4016 | _mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
|
---|
4017 | _mm_setr_epi8(6, 7, 14, 15, -1, -1, -1, -1,
|
---|
4018 | -1, -1, -1, -1, -1, -1, -1,
|
---|
4019 | -1)))));
|
---|
4020 | }
|
---|
4021 | else if constexpr (_FromBytes == 4 && _ToBytes == 1)
|
---|
4022 | {
|
---|
4023 | return __intrin_bitcast<_To>(__m256i(__zero_extend(
|
---|
4024 | _mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
|
---|
4025 | _mm_setr_epi8(3, 7, 11, 15, -1, -1, -1, -1,
|
---|
4026 | -1, -1, -1, -1, -1, -1, -1,
|
---|
4027 | -1)))));
|
---|
4028 | }
|
---|
4029 | else if constexpr (_FromBytes == 8 && _ToBytes == 1)
|
---|
4030 | {
|
---|
4031 | return __intrin_bitcast<_To>(__m256i(__zero_extend(
|
---|
4032 | _mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
|
---|
4033 | _mm_setr_epi8(7, 15, -1, -1, -1, -1, -1,
|
---|
4034 | -1, -1, -1, -1, -1, -1, -1,
|
---|
4035 | -1, -1)))));
|
---|
4036 | }
|
---|
4037 | else
|
---|
4038 | static_assert(!is_same_v<_Tp, _Tp>, "should be unreachable");
|
---|
4039 | } // }}}
|
---|
4040 | else if constexpr (sizeof(_UI) == 16 && sizeof(__k) == 32)
|
---|
4041 | { // AVX -> SSE {{{
|
---|
4042 | if constexpr (_FromBytes == _ToBytes)
|
---|
4043 | { // keep low 1/2
|
---|
4044 | return __intrin_bitcast<_To>(__lo128(__k));
|
---|
4045 | }
|
---|
4046 | else if constexpr (_FromBytes == _ToBytes * 2)
|
---|
4047 | { // keep all
|
---|
4048 | auto __y = __vector_bitcast<_LLong>(__k);
|
---|
4049 | return __intrin_bitcast<_To>(
|
---|
4050 | _mm_packs_epi16(__lo128(__y), __hi128(__y)));
|
---|
4051 | }
|
---|
4052 | else if constexpr (_FromBytes == _ToBytes * 4)
|
---|
4053 | { // add 1/2 undef
|
---|
4054 | auto __y = __vector_bitcast<_LLong>(__k);
|
---|
4055 | return __intrin_bitcast<_To>(
|
---|
4056 | _mm_packs_epi16(_mm_packs_epi16(__lo128(__y), __hi128(__y)),
|
---|
4057 | __m128i()));
|
---|
4058 | }
|
---|
4059 | else if constexpr (_FromBytes == 8 && _ToBytes == 1)
|
---|
4060 | { // add 3/4 undef
|
---|
4061 | auto __y = __vector_bitcast<_LLong>(__k);
|
---|
4062 | return __intrin_bitcast<_To>(_mm_shuffle_epi8(
|
---|
4063 | _mm_packs_epi16(__lo128(__y), __hi128(__y)),
|
---|
4064 | _mm_setr_epi8(3, 7, 11, 15, -1, -1, -1, -1, -1, -1, -1, -1,
|
---|
4065 | -1, -1, -1, -1)));
|
---|
4066 | }
|
---|
4067 | else if constexpr (_FromBytes * 2 == _ToBytes)
|
---|
4068 | { // keep low 1/4
|
---|
4069 | auto __y = __lo128(__vector_bitcast<_LLong>(__k));
|
---|
4070 | return __intrin_bitcast<_To>(_mm_unpacklo_epi8(__y, __y));
|
---|
4071 | }
|
---|
4072 | else if constexpr (_FromBytes * 4 == _ToBytes)
|
---|
4073 | { // keep low 1/8
|
---|
4074 | auto __y = __lo128(__vector_bitcast<_LLong>(__k));
|
---|
4075 | __y = _mm_unpacklo_epi8(__y, __y);
|
---|
4076 | return __intrin_bitcast<_To>(_mm_unpacklo_epi8(__y, __y));
|
---|
4077 | }
|
---|
4078 | else if constexpr (_FromBytes * 8 == _ToBytes)
|
---|
4079 | { // keep low 1/16
|
---|
4080 | auto __y = __lo128(__vector_bitcast<_LLong>(__k));
|
---|
4081 | __y = _mm_unpacklo_epi8(__y, __y);
|
---|
4082 | __y = _mm_unpacklo_epi8(__y, __y);
|
---|
4083 | return __intrin_bitcast<_To>(_mm_unpacklo_epi8(__y, __y));
|
---|
4084 | }
|
---|
4085 | else
|
---|
4086 | static_assert(!is_same_v<_Tp, _Tp>, "should be unreachable");
|
---|
4087 | } // }}}
|
---|
4088 | else
|
---|
4089 | return _Base::template _S_to_maskvector<_Up, _ToN>(__x);
|
---|
4090 | /*
|
---|
4091 | if constexpr (_FromBytes > _ToBytes) {
|
---|
4092 | const _To __y = __vector_bitcast<_Up>(__k);
|
---|
4093 | return [&] <size_t... _Is> (index_sequence<_Is...>) {
|
---|
4094 | constexpr int _Stride = _FromBytes / _ToBytes;
|
---|
4095 | return _To{__y[(_Is + 1) * _Stride - 1]...};
|
---|
4096 | }(make_index_sequence<std::min(_ToN, _FromN)>());
|
---|
4097 | } else {
|
---|
4098 | // {0, 0, 1, 1} (_Dups = 2, _Is<4>)
|
---|
4099 | // {0, 0, 0, 0, 1, 1, 1, 1} (_Dups = 4, _Is<8>)
|
---|
4100 | // {0, 0, 1, 1, 2, 2, 3, 3} (_Dups = 2, _Is<8>)
|
---|
4101 | // ...
|
---|
4102 | return [&] <size_t... _Is> (index_sequence<_Is...>) {
|
---|
4103 | constexpr int __dup = _ToBytes / _FromBytes;
|
---|
4104 | return __intrin_bitcast<_To>(_From{__k[_Is / __dup]...});
|
---|
4105 | }(make_index_sequence<_FromN>());
|
---|
4106 | }
|
---|
4107 | */
|
---|
4108 | } // }}}
|
---|
4109 | }
|
---|
4110 |
|
---|
4111 | // }}}
|
---|
4112 | // _S_to_bits {{{
|
---|
4113 | template <typename _Tp, size_t _Np>
|
---|
4114 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SanitizedBitMask<_Np>
|
---|
4115 | _S_to_bits(_SimdWrapper<_Tp, _Np> __x)
|
---|
4116 | {
|
---|
4117 | if constexpr (is_same_v<_Tp, bool>)
|
---|
4118 | return _BitMask<_Np>(__x._M_data)._M_sanitized();
|
---|
4119 | else
|
---|
4120 | {
|
---|
4121 | static_assert(is_same_v<_Tp, __int_for_sizeof_t<_Tp>>);
|
---|
4122 | if (__builtin_is_constant_evaluated()
|
---|
4123 | || __builtin_constant_p(__x._M_data))
|
---|
4124 | {
|
---|
4125 | const auto __bools = -__x._M_data;
|
---|
4126 | const _ULLong __k = __call_with_n_evaluations<_Np>(
|
---|
4127 | [](auto... __bits) { return (__bits | ...); },
|
---|
4128 | [&](auto __i) { return _ULLong(__bools[+__i]) << __i; });
|
---|
4129 | if (__builtin_is_constant_evaluated()
|
---|
4130 | || __builtin_constant_p(__k))
|
---|
4131 | return __k;
|
---|
4132 | }
|
---|
4133 | const auto __xi = __to_intrin(__x);
|
---|
4134 | if constexpr (sizeof(_Tp) == 1)
|
---|
4135 | if constexpr (sizeof(__xi) == 16)
|
---|
4136 | if constexpr (__have_avx512bw_vl)
|
---|
4137 | return _BitMask<_Np>(_mm_movepi8_mask(__xi));
|
---|
4138 | else // implies SSE2
|
---|
4139 | return _BitMask<_Np>(_mm_movemask_epi8(__xi));
|
---|
4140 | else if constexpr (sizeof(__xi) == 32)
|
---|
4141 | if constexpr (__have_avx512bw_vl)
|
---|
4142 | return _BitMask<_Np>(_mm256_movepi8_mask(__xi));
|
---|
4143 | else // implies AVX2
|
---|
4144 | return _BitMask<_Np>(_mm256_movemask_epi8(__xi));
|
---|
4145 | else // implies AVX512BW
|
---|
4146 | return _BitMask<_Np>(_mm512_movepi8_mask(__xi));
|
---|
4147 |
|
---|
4148 | else if constexpr (sizeof(_Tp) == 2)
|
---|
4149 | if constexpr (sizeof(__xi) == 16)
|
---|
4150 | if constexpr (__have_avx512bw_vl)
|
---|
4151 | return _BitMask<_Np>(_mm_movepi16_mask(__xi));
|
---|
4152 | else if constexpr (__have_avx512bw)
|
---|
4153 | return _BitMask<_Np>(_mm512_movepi16_mask(__zero_extend(__xi)));
|
---|
4154 | else // implies SSE2
|
---|
4155 | return _BitMask<_Np>(
|
---|
4156 | _mm_movemask_epi8(_mm_packs_epi16(__xi, __m128i())));
|
---|
4157 | else if constexpr (sizeof(__xi) == 32)
|
---|
4158 | if constexpr (__have_avx512bw_vl)
|
---|
4159 | return _BitMask<_Np>(_mm256_movepi16_mask(__xi));
|
---|
4160 | else if constexpr (__have_avx512bw)
|
---|
4161 | return _BitMask<_Np>(_mm512_movepi16_mask(__zero_extend(__xi)));
|
---|
4162 | else // implies SSE2
|
---|
4163 | return _BitMask<_Np>(_mm_movemask_epi8(
|
---|
4164 | _mm_packs_epi16(__lo128(__xi), __hi128(__xi))));
|
---|
4165 | else // implies AVX512BW
|
---|
4166 | return _BitMask<_Np>(_mm512_movepi16_mask(__xi));
|
---|
4167 |
|
---|
4168 | else if constexpr (sizeof(_Tp) == 4)
|
---|
4169 | if constexpr (sizeof(__xi) == 16)
|
---|
4170 | if constexpr (__have_avx512dq_vl)
|
---|
4171 | return _BitMask<_Np>(_mm_movepi32_mask(__xi));
|
---|
4172 | else if constexpr (__have_avx512vl)
|
---|
4173 | return _BitMask<_Np>(_mm_cmplt_epi32_mask(__xi, __m128i()));
|
---|
4174 | else if constexpr (__have_avx512dq)
|
---|
4175 | return _BitMask<_Np>(_mm512_movepi32_mask(__zero_extend(__xi)));
|
---|
4176 | else if constexpr (__have_avx512f)
|
---|
4177 | return _BitMask<_Np>(
|
---|
4178 | _mm512_cmplt_epi32_mask(__zero_extend(__xi), __m512i()));
|
---|
4179 | else // implies SSE
|
---|
4180 | return _BitMask<_Np>(
|
---|
4181 | _mm_movemask_ps(reinterpret_cast<__m128>(__xi)));
|
---|
4182 | else if constexpr (sizeof(__xi) == 32)
|
---|
4183 | if constexpr (__have_avx512dq_vl)
|
---|
4184 | return _BitMask<_Np>(_mm256_movepi32_mask(__xi));
|
---|
4185 | else if constexpr (__have_avx512dq)
|
---|
4186 | return _BitMask<_Np>(_mm512_movepi32_mask(__zero_extend(__xi)));
|
---|
4187 | else if constexpr (__have_avx512vl)
|
---|
4188 | return _BitMask<_Np>(_mm256_cmplt_epi32_mask(__xi, __m256i()));
|
---|
4189 | else if constexpr (__have_avx512f)
|
---|
4190 | return _BitMask<_Np>(
|
---|
4191 | _mm512_cmplt_epi32_mask(__zero_extend(__xi), __m512i()));
|
---|
4192 | else // implies AVX
|
---|
4193 | return _BitMask<_Np>(
|
---|
4194 | _mm256_movemask_ps(reinterpret_cast<__m256>(__xi)));
|
---|
4195 | else // implies AVX512??
|
---|
4196 | if constexpr (__have_avx512dq)
|
---|
4197 | return _BitMask<_Np>(_mm512_movepi32_mask(__xi));
|
---|
4198 | else // implies AVX512F
|
---|
4199 | return _BitMask<_Np>(_mm512_cmplt_epi32_mask(__xi, __m512i()));
|
---|
4200 |
|
---|
4201 | else if constexpr (sizeof(_Tp) == 8)
|
---|
4202 | if constexpr (sizeof(__xi) == 16)
|
---|
4203 | if constexpr (__have_avx512dq_vl)
|
---|
4204 | return _BitMask<_Np>(_mm_movepi64_mask(__xi));
|
---|
4205 | else if constexpr (__have_avx512dq)
|
---|
4206 | return _BitMask<_Np>(_mm512_movepi64_mask(__zero_extend(__xi)));
|
---|
4207 | else if constexpr (__have_avx512vl)
|
---|
4208 | return _BitMask<_Np>(_mm_cmplt_epi64_mask(__xi, __m128i()));
|
---|
4209 | else if constexpr (__have_avx512f)
|
---|
4210 | return _BitMask<_Np>(
|
---|
4211 | _mm512_cmplt_epi64_mask(__zero_extend(__xi), __m512i()));
|
---|
4212 | else // implies SSE2
|
---|
4213 | return _BitMask<_Np>(
|
---|
4214 | _mm_movemask_pd(reinterpret_cast<__m128d>(__xi)));
|
---|
4215 | else if constexpr (sizeof(__xi) == 32)
|
---|
4216 | if constexpr (__have_avx512dq_vl)
|
---|
4217 | return _BitMask<_Np>(_mm256_movepi64_mask(__xi));
|
---|
4218 | else if constexpr (__have_avx512dq)
|
---|
4219 | return _BitMask<_Np>(_mm512_movepi64_mask(__zero_extend(__xi)));
|
---|
4220 | else if constexpr (__have_avx512vl)
|
---|
4221 | return _BitMask<_Np>(_mm256_cmplt_epi64_mask(__xi, __m256i()));
|
---|
4222 | else if constexpr (__have_avx512f)
|
---|
4223 | return _BitMask<_Np>(
|
---|
4224 | _mm512_cmplt_epi64_mask(__zero_extend(__xi), __m512i()));
|
---|
4225 | else // implies AVX
|
---|
4226 | return _BitMask<_Np>(
|
---|
4227 | _mm256_movemask_pd(reinterpret_cast<__m256d>(__xi)));
|
---|
4228 | else // implies AVX512??
|
---|
4229 | if constexpr (__have_avx512dq)
|
---|
4230 | return _BitMask<_Np>(_mm512_movepi64_mask(__xi));
|
---|
4231 | else // implies AVX512F
|
---|
4232 | return _BitMask<_Np>(_mm512_cmplt_epi64_mask(__xi, __m512i()));
|
---|
4233 |
|
---|
4234 | else
|
---|
4235 | __assert_unreachable<_Tp>();
|
---|
4236 | }
|
---|
4237 | }
|
---|
4238 | // }}}
|
---|
4239 | };
|
---|
4240 |
|
---|
4241 | // }}}
|
---|
4242 | // _MaskImplX86 {{{
|
---|
4243 | template <typename _Abi>
|
---|
4244 | struct _MaskImplX86 : _MaskImplX86Mixin, _MaskImplBuiltin<_Abi>
|
---|
4245 | {
|
---|
4246 | using _MaskImplX86Mixin::_S_to_bits;
|
---|
4247 | using _MaskImplX86Mixin::_S_to_maskvector;
|
---|
4248 | using _MaskImplBuiltin<_Abi>::_S_convert;
|
---|
4249 |
|
---|
4250 | // member types {{{
|
---|
4251 | template <typename _Tp>
|
---|
4252 | using _SimdMember = typename _Abi::template __traits<_Tp>::_SimdMember;
|
---|
4253 |
|
---|
4254 | template <typename _Tp>
|
---|
4255 | using _MaskMember = typename _Abi::template _MaskMember<_Tp>;
|
---|
4256 |
|
---|
4257 | template <typename _Tp>
|
---|
4258 | static constexpr size_t _S_size = simd_size_v<_Tp, _Abi>;
|
---|
4259 |
|
---|
4260 | using _Base = _MaskImplBuiltin<_Abi>;
|
---|
4261 |
|
---|
4262 | // }}}
|
---|
4263 | // _S_broadcast {{{
|
---|
4264 | template <typename _Tp>
|
---|
4265 | _GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
|
---|
4266 | _S_broadcast(bool __x)
|
---|
4267 | {
|
---|
4268 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
4269 | return __x ? _Abi::_S_masked(_MaskMember<_Tp>(-1))
|
---|
4270 | : _MaskMember<_Tp>();
|
---|
4271 | else
|
---|
4272 | return _Base::template _S_broadcast<_Tp>(__x);
|
---|
4273 | }
|
---|
4274 |
|
---|
4275 | // }}}
|
---|
4276 | // _S_load {{{
|
---|
4277 | template <typename _Tp>
|
---|
4278 | _GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
|
---|
4279 | _S_load(const bool* __mem)
|
---|
4280 | {
|
---|
4281 | static_assert(is_same_v<_Tp, __int_for_sizeof_t<_Tp>>);
|
---|
4282 | if constexpr (__have_avx512bw)
|
---|
4283 | {
|
---|
4284 | const auto __to_vec_or_bits = [](auto __bits) -> decltype(auto) {
|
---|
4285 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
4286 | return __bits;
|
---|
4287 | else
|
---|
4288 | return _S_to_maskvector<_Tp>(
|
---|
4289 | _BitMask<_S_size<_Tp>>(__bits)._M_sanitized());
|
---|
4290 | };
|
---|
4291 |
|
---|
4292 | if constexpr (_S_size<_Tp> <= 16 && __have_avx512vl)
|
---|
4293 | {
|
---|
4294 | __m128i __a = {};
|
---|
4295 | __builtin_memcpy(&__a, __mem, _S_size<_Tp>);
|
---|
4296 | return __to_vec_or_bits(_mm_test_epi8_mask(__a, __a));
|
---|
4297 | }
|
---|
4298 | else if constexpr (_S_size<_Tp> <= 32 && __have_avx512vl)
|
---|
4299 | {
|
---|
4300 | __m256i __a = {};
|
---|
4301 | __builtin_memcpy(&__a, __mem, _S_size<_Tp>);
|
---|
4302 | return __to_vec_or_bits(_mm256_test_epi8_mask(__a, __a));
|
---|
4303 | }
|
---|
4304 | else if constexpr (_S_size<_Tp> <= 64)
|
---|
4305 | {
|
---|
4306 | __m512i __a = {};
|
---|
4307 | __builtin_memcpy(&__a, __mem, _S_size<_Tp>);
|
---|
4308 | return __to_vec_or_bits(_mm512_test_epi8_mask(__a, __a));
|
---|
4309 | }
|
---|
4310 | }
|
---|
4311 | else if constexpr (__is_avx512_abi<_Abi>())
|
---|
4312 | {
|
---|
4313 | if constexpr (_S_size<_Tp> <= 8)
|
---|
4314 | {
|
---|
4315 | __m128i __a = {};
|
---|
4316 | __builtin_memcpy(&__a, __mem, _S_size<_Tp>);
|
---|
4317 | const auto __b = _mm512_cvtepi8_epi64(__a);
|
---|
4318 | return _mm512_test_epi64_mask(__b, __b);
|
---|
4319 | }
|
---|
4320 | else if constexpr (_S_size<_Tp> <= 16)
|
---|
4321 | {
|
---|
4322 | __m128i __a = {};
|
---|
4323 | __builtin_memcpy(&__a, __mem, _S_size<_Tp>);
|
---|
4324 | const auto __b = _mm512_cvtepi8_epi32(__a);
|
---|
4325 | return _mm512_test_epi32_mask(__b, __b);
|
---|
4326 | }
|
---|
4327 | else if constexpr (_S_size<_Tp> <= 32)
|
---|
4328 | {
|
---|
4329 | __m128i __a = {};
|
---|
4330 | __builtin_memcpy(&__a, __mem, 16);
|
---|
4331 | const auto __b = _mm512_cvtepi8_epi32(__a);
|
---|
4332 | __builtin_memcpy(&__a, __mem + 16, _S_size<_Tp> - 16);
|
---|
4333 | const auto __c = _mm512_cvtepi8_epi32(__a);
|
---|
4334 | return _mm512_test_epi32_mask(__b, __b)
|
---|
4335 | | (_mm512_test_epi32_mask(__c, __c) << 16);
|
---|
4336 | }
|
---|
4337 | else if constexpr (_S_size<_Tp> <= 64)
|
---|
4338 | {
|
---|
4339 | __m128i __a = {};
|
---|
4340 | __builtin_memcpy(&__a, __mem, 16);
|
---|
4341 | const auto __b = _mm512_cvtepi8_epi32(__a);
|
---|
4342 | __builtin_memcpy(&__a, __mem + 16, 16);
|
---|
4343 | const auto __c = _mm512_cvtepi8_epi32(__a);
|
---|
4344 | if constexpr (_S_size<_Tp> <= 48)
|
---|
4345 | {
|
---|
4346 | __builtin_memcpy(&__a, __mem + 32, _S_size<_Tp> - 32);
|
---|
4347 | const auto __d = _mm512_cvtepi8_epi32(__a);
|
---|
4348 | return _mm512_test_epi32_mask(__b, __b)
|
---|
4349 | | (_mm512_test_epi32_mask(__c, __c) << 16)
|
---|
4350 | | (_ULLong(_mm512_test_epi32_mask(__d, __d)) << 32);
|
---|
4351 | }
|
---|
4352 | else
|
---|
4353 | {
|
---|
4354 | __builtin_memcpy(&__a, __mem + 16, 16);
|
---|
4355 | const auto __d = _mm512_cvtepi8_epi32(__a);
|
---|
4356 | __builtin_memcpy(&__a, __mem + 32, _S_size<_Tp> - 48);
|
---|
4357 | const auto __e = _mm512_cvtepi8_epi32(__a);
|
---|
4358 | return _mm512_test_epi32_mask(__b, __b)
|
---|
4359 | | (_mm512_test_epi32_mask(__c, __c) << 16)
|
---|
4360 | | (_ULLong(_mm512_test_epi32_mask(__d, __d)) << 32)
|
---|
4361 | | (_ULLong(_mm512_test_epi32_mask(__e, __e)) << 48);
|
---|
4362 | }
|
---|
4363 | }
|
---|
4364 | else
|
---|
4365 | __assert_unreachable<_Tp>();
|
---|
4366 | }
|
---|
4367 | else if constexpr (sizeof(_Tp) == 8 && _S_size<_Tp> == 2)
|
---|
4368 | return __vector_bitcast<_Tp>(
|
---|
4369 | __vector_type16_t<int>{-int(__mem[0]), -int(__mem[0]),
|
---|
4370 | -int(__mem[1]), -int(__mem[1])});
|
---|
4371 | else if constexpr (sizeof(_Tp) == 8 && _S_size<_Tp> <= 4 && __have_avx)
|
---|
4372 | {
|
---|
4373 | int __bool4 = 0;
|
---|
4374 | __builtin_memcpy(&__bool4, __mem, _S_size<_Tp>);
|
---|
4375 | const auto __k = __to_intrin(
|
---|
4376 | (__vector_broadcast<4>(__bool4)
|
---|
4377 | & __make_vector<int>(0x1, 0x100, 0x10000,
|
---|
4378 | _S_size<_Tp> == 4 ? 0x1000000 : 0))
|
---|
4379 | != 0);
|
---|
4380 | return __vector_bitcast<_Tp>(
|
---|
4381 | __concat(_mm_unpacklo_epi32(__k, __k),
|
---|
4382 | _mm_unpackhi_epi32(__k, __k)));
|
---|
4383 | }
|
---|
4384 | else if constexpr (sizeof(_Tp) == 4 && _S_size<_Tp> <= 4)
|
---|
4385 | {
|
---|
4386 | int __bools = 0;
|
---|
4387 | __builtin_memcpy(&__bools, __mem, _S_size<_Tp>);
|
---|
4388 | if constexpr (__have_sse2)
|
---|
4389 | {
|
---|
4390 | __m128i __k = _mm_cvtsi32_si128(__bools);
|
---|
4391 | __k = _mm_cmpgt_epi16(_mm_unpacklo_epi8(__k, __k), __m128i());
|
---|
4392 | return __vector_bitcast<_Tp, _S_size<_Tp>>(
|
---|
4393 | _mm_unpacklo_epi16(__k, __k));
|
---|
4394 | }
|
---|
4395 | else
|
---|
4396 | {
|
---|
4397 | __m128 __k = _mm_cvtpi8_ps(_mm_cvtsi32_si64(__bools));
|
---|
4398 | _mm_empty();
|
---|
4399 | return __vector_bitcast<_Tp, _S_size<_Tp>>(
|
---|
4400 | _mm_cmpgt_ps(__k, __m128()));
|
---|
4401 | }
|
---|
4402 | }
|
---|
4403 | else if constexpr (sizeof(_Tp) == 4 && _S_size<_Tp> <= 8)
|
---|
4404 | {
|
---|
4405 | __m128i __k = {};
|
---|
4406 | __builtin_memcpy(&__k, __mem, _S_size<_Tp>);
|
---|
4407 | __k = _mm_cmpgt_epi16(_mm_unpacklo_epi8(__k, __k), __m128i());
|
---|
4408 | return __vector_bitcast<_Tp>(
|
---|
4409 | __concat(_mm_unpacklo_epi16(__k, __k),
|
---|
4410 | _mm_unpackhi_epi16(__k, __k)));
|
---|
4411 | }
|
---|
4412 | else if constexpr (sizeof(_Tp) == 2 && _S_size<_Tp> <= 16)
|
---|
4413 | {
|
---|
4414 | __m128i __k = {};
|
---|
4415 | __builtin_memcpy(&__k, __mem, _S_size<_Tp>);
|
---|
4416 | __k = _mm_cmpgt_epi8(__k, __m128i());
|
---|
4417 | if constexpr (_S_size<_Tp> <= 8)
|
---|
4418 | return __vector_bitcast<_Tp, _S_size<_Tp>>(
|
---|
4419 | _mm_unpacklo_epi8(__k, __k));
|
---|
4420 | else
|
---|
4421 | return __concat(_mm_unpacklo_epi8(__k, __k),
|
---|
4422 | _mm_unpackhi_epi8(__k, __k));
|
---|
4423 | }
|
---|
4424 | else
|
---|
4425 | return _Base::template _S_load<_Tp>(__mem);
|
---|
4426 | }
|
---|
4427 |
|
---|
4428 | // }}}
|
---|
4429 | // _S_from_bitmask{{{
|
---|
4430 | template <size_t _Np, typename _Tp>
|
---|
4431 | _GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
|
---|
4432 | _S_from_bitmask(_SanitizedBitMask<_Np> __bits, _TypeTag<_Tp>)
|
---|
4433 | {
|
---|
4434 | static_assert(is_same_v<_Tp, __int_for_sizeof_t<_Tp>>);
|
---|
4435 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
4436 | return __bits._M_to_bits();
|
---|
4437 | else
|
---|
4438 | return _S_to_maskvector<_Tp, _S_size<_Tp>>(__bits);
|
---|
4439 | }
|
---|
4440 |
|
---|
4441 | // }}}
|
---|
4442 | // _S_masked_load {{{2
|
---|
4443 | template <typename _Tp, size_t _Np>
|
---|
4444 | static inline _SimdWrapper<_Tp, _Np>
|
---|
4445 | _S_masked_load(_SimdWrapper<_Tp, _Np> __merge,
|
---|
4446 | _SimdWrapper<_Tp, _Np> __mask, const bool* __mem) noexcept
|
---|
4447 | {
|
---|
4448 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
4449 | {
|
---|
4450 | if constexpr (__have_avx512bw_vl)
|
---|
4451 | {
|
---|
4452 | if constexpr (_Np <= 16)
|
---|
4453 | {
|
---|
4454 | const auto __a
|
---|
4455 | = _mm_mask_loadu_epi8(__m128i(), __mask, __mem);
|
---|
4456 | return (__merge & ~__mask) | _mm_test_epi8_mask(__a, __a);
|
---|
4457 | }
|
---|
4458 | else if constexpr (_Np <= 32)
|
---|
4459 | {
|
---|
4460 | const auto __a
|
---|
4461 | = _mm256_mask_loadu_epi8(__m256i(), __mask, __mem);
|
---|
4462 | return (__merge & ~__mask)
|
---|
4463 | | _mm256_test_epi8_mask(__a, __a);
|
---|
4464 | }
|
---|
4465 | else if constexpr (_Np <= 64)
|
---|
4466 | {
|
---|
4467 | const auto __a
|
---|
4468 | = _mm512_mask_loadu_epi8(__m512i(), __mask, __mem);
|
---|
4469 | return (__merge & ~__mask)
|
---|
4470 | | _mm512_test_epi8_mask(__a, __a);
|
---|
4471 | }
|
---|
4472 | else
|
---|
4473 | __assert_unreachable<_Tp>();
|
---|
4474 | }
|
---|
4475 | else
|
---|
4476 | {
|
---|
4477 | _BitOps::_S_bit_iteration(__mask, [&](auto __i) {
|
---|
4478 | __merge._M_set(__i, __mem[__i]);
|
---|
4479 | });
|
---|
4480 | return __merge;
|
---|
4481 | }
|
---|
4482 | }
|
---|
4483 | else if constexpr (__have_avx512bw_vl && _Np == 32 && sizeof(_Tp) == 1)
|
---|
4484 | {
|
---|
4485 | const auto __k = _S_to_bits(__mask)._M_to_bits();
|
---|
4486 | __merge = _mm256_mask_sub_epi8(__to_intrin(__merge), __k, __m256i(),
|
---|
4487 | _mm256_mask_loadu_epi8(__m256i(),
|
---|
4488 | __k, __mem));
|
---|
4489 | }
|
---|
4490 | else if constexpr (__have_avx512bw_vl && _Np == 16 && sizeof(_Tp) == 1)
|
---|
4491 | {
|
---|
4492 | const auto __k = _S_to_bits(__mask)._M_to_bits();
|
---|
4493 | __merge
|
---|
4494 | = _mm_mask_sub_epi8(__vector_bitcast<_LLong>(__merge), __k,
|
---|
4495 | __m128i(),
|
---|
4496 | _mm_mask_loadu_epi8(__m128i(), __k, __mem));
|
---|
4497 | }
|
---|
4498 | else if constexpr (__have_avx512bw_vl && _Np == 16 && sizeof(_Tp) == 2)
|
---|
4499 | {
|
---|
4500 | const auto __k = _S_to_bits(__mask)._M_to_bits();
|
---|
4501 | __merge = _mm256_mask_sub_epi16(
|
---|
4502 | __vector_bitcast<_LLong>(__merge), __k, __m256i(),
|
---|
4503 | _mm256_cvtepi8_epi16(_mm_mask_loadu_epi8(__m128i(), __k, __mem)));
|
---|
4504 | }
|
---|
4505 | else if constexpr (__have_avx512bw_vl && _Np == 8 && sizeof(_Tp) == 2)
|
---|
4506 | {
|
---|
4507 | const auto __k = _S_to_bits(__mask)._M_to_bits();
|
---|
4508 | __merge = _mm_mask_sub_epi16(
|
---|
4509 | __vector_bitcast<_LLong>(__merge), __k, __m128i(),
|
---|
4510 | _mm_cvtepi8_epi16(_mm_mask_loadu_epi8(__m128i(), __k, __mem)));
|
---|
4511 | }
|
---|
4512 | else if constexpr (__have_avx512bw_vl && _Np == 8 && sizeof(_Tp) == 4)
|
---|
4513 | {
|
---|
4514 | const auto __k = _S_to_bits(__mask)._M_to_bits();
|
---|
4515 | __merge = __vector_bitcast<_Tp>(_mm256_mask_sub_epi32(
|
---|
4516 | __vector_bitcast<_LLong>(__merge), __k, __m256i(),
|
---|
4517 | _mm256_cvtepi8_epi32(
|
---|
4518 | _mm_mask_loadu_epi8(__m128i(), __k, __mem))));
|
---|
4519 | }
|
---|
4520 | else if constexpr (__have_avx512bw_vl && _Np == 4 && sizeof(_Tp) == 4)
|
---|
4521 | {
|
---|
4522 | const auto __k = _S_to_bits(__mask)._M_to_bits();
|
---|
4523 | __merge = __vector_bitcast<_Tp>(_mm_mask_sub_epi32(
|
---|
4524 | __vector_bitcast<_LLong>(__merge), __k, __m128i(),
|
---|
4525 | _mm_cvtepi8_epi32(_mm_mask_loadu_epi8(__m128i(), __k, __mem))));
|
---|
4526 | }
|
---|
4527 | else if constexpr (__have_avx512bw_vl && _Np == 4 && sizeof(_Tp) == 8)
|
---|
4528 | {
|
---|
4529 | const auto __k = _S_to_bits(__mask)._M_to_bits();
|
---|
4530 | __merge = __vector_bitcast<_Tp>(_mm256_mask_sub_epi64(
|
---|
4531 | __vector_bitcast<_LLong>(__merge), __k, __m256i(),
|
---|
4532 | _mm256_cvtepi8_epi64(
|
---|
4533 | _mm_mask_loadu_epi8(__m128i(), __k, __mem))));
|
---|
4534 | }
|
---|
4535 | else if constexpr (__have_avx512bw_vl && _Np == 2 && sizeof(_Tp) == 8)
|
---|
4536 | {
|
---|
4537 | const auto __k = _S_to_bits(__mask)._M_to_bits();
|
---|
4538 | __merge = __vector_bitcast<_Tp>(_mm_mask_sub_epi64(
|
---|
4539 | __vector_bitcast<_LLong>(__merge), __k, __m128i(),
|
---|
4540 | _mm_cvtepi8_epi64(_mm_mask_loadu_epi8(__m128i(), __k, __mem))));
|
---|
4541 | }
|
---|
4542 | else
|
---|
4543 | return _Base::_S_masked_load(__merge, __mask, __mem);
|
---|
4544 | return __merge;
|
---|
4545 | }
|
---|
4546 |
|
---|
4547 | // _S_store {{{2
|
---|
4548 | template <typename _Tp, size_t _Np>
|
---|
4549 | _GLIBCXX_SIMD_INTRINSIC static void _S_store(_SimdWrapper<_Tp, _Np> __v,
|
---|
4550 | bool* __mem) noexcept
|
---|
4551 | {
|
---|
4552 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
4553 | {
|
---|
4554 | if constexpr (__have_avx512bw_vl)
|
---|
4555 | _CommonImplX86::_S_store<_Np>(
|
---|
4556 | __vector_bitcast<char>([](auto __data) {
|
---|
4557 | if constexpr (_Np <= 16)
|
---|
4558 | return _mm_maskz_set1_epi8(__data, 1);
|
---|
4559 | else if constexpr (_Np <= 32)
|
---|
4560 | return _mm256_maskz_set1_epi8(__data, 1);
|
---|
4561 | else
|
---|
4562 | return _mm512_maskz_set1_epi8(__data, 1);
|
---|
4563 | }(__v._M_data)),
|
---|
4564 | __mem);
|
---|
4565 | else if constexpr (_Np <= 8)
|
---|
4566 | _CommonImplX86::_S_store<_Np>(
|
---|
4567 | __vector_bitcast<char>(
|
---|
4568 | #if defined __x86_64__
|
---|
4569 | __make_wrapper<_ULLong>(
|
---|
4570 | _pdep_u64(__v._M_data, 0x0101010101010101ULL), 0ull)
|
---|
4571 | #else
|
---|
4572 | __make_wrapper<_UInt>(_pdep_u32(__v._M_data, 0x01010101U),
|
---|
4573 | _pdep_u32(__v._M_data >> 4,
|
---|
4574 | 0x01010101U))
|
---|
4575 | #endif
|
---|
4576 | ),
|
---|
4577 | __mem);
|
---|
4578 | else if constexpr (_Np <= 16)
|
---|
4579 | _mm512_mask_cvtepi32_storeu_epi8(
|
---|
4580 | __mem, 0xffffu >> (16 - _Np),
|
---|
4581 | _mm512_maskz_set1_epi32(__v._M_data, 1));
|
---|
4582 | else
|
---|
4583 | __assert_unreachable<_Tp>();
|
---|
4584 | }
|
---|
4585 | else if constexpr (__is_sse_abi<_Abi>()) //{{{
|
---|
4586 | {
|
---|
4587 | if constexpr (_Np == 2 && sizeof(_Tp) == 8)
|
---|
4588 | {
|
---|
4589 | const auto __k = __vector_bitcast<int>(__v);
|
---|
4590 | __mem[0] = -__k[1];
|
---|
4591 | __mem[1] = -__k[3];
|
---|
4592 | }
|
---|
4593 | else if constexpr (_Np <= 4 && sizeof(_Tp) == 4)
|
---|
4594 | {
|
---|
4595 | if constexpr (__have_sse2)
|
---|
4596 | {
|
---|
4597 | const unsigned __bool4
|
---|
4598 | = __vector_bitcast<_UInt>(_mm_packs_epi16(
|
---|
4599 | _mm_packs_epi32(__intrin_bitcast<__m128i>(
|
---|
4600 | __to_intrin(__v)),
|
---|
4601 | __m128i()),
|
---|
4602 | __m128i()))[0]
|
---|
4603 | & 0x01010101u;
|
---|
4604 | __builtin_memcpy(__mem, &__bool4, _Np);
|
---|
4605 | }
|
---|
4606 | else if constexpr (__have_mmx)
|
---|
4607 | {
|
---|
4608 | const __m64 __k = _mm_cvtps_pi8(
|
---|
4609 | __and(__to_intrin(__v), _mm_set1_ps(1.f)));
|
---|
4610 | __builtin_memcpy(__mem, &__k, _Np);
|
---|
4611 | _mm_empty();
|
---|
4612 | }
|
---|
4613 | else
|
---|
4614 | return _Base::_S_store(__v, __mem);
|
---|
4615 | }
|
---|
4616 | else if constexpr (_Np <= 8 && sizeof(_Tp) == 2)
|
---|
4617 | {
|
---|
4618 | _CommonImplX86::_S_store<_Np>(
|
---|
4619 | __vector_bitcast<char>(_mm_packs_epi16(
|
---|
4620 | __to_intrin(__vector_bitcast<_UShort>(__v) >> 15),
|
---|
4621 | __m128i())),
|
---|
4622 | __mem);
|
---|
4623 | }
|
---|
4624 | else if constexpr (_Np <= 16 && sizeof(_Tp) == 1)
|
---|
4625 | _CommonImplX86::_S_store<_Np>(__v._M_data & 1, __mem);
|
---|
4626 | else
|
---|
4627 | __assert_unreachable<_Tp>();
|
---|
4628 | } // }}}
|
---|
4629 | else if constexpr (__is_avx_abi<_Abi>()) // {{{
|
---|
4630 | {
|
---|
4631 | if constexpr (_Np <= 4 && sizeof(_Tp) == 8)
|
---|
4632 | {
|
---|
4633 | auto __k = __intrin_bitcast<__m256i>(__to_intrin(__v));
|
---|
4634 | int __bool4;
|
---|
4635 | if constexpr (__have_avx2)
|
---|
4636 | __bool4 = _mm256_movemask_epi8(__k);
|
---|
4637 | else
|
---|
4638 | __bool4 = (_mm_movemask_epi8(__lo128(__k))
|
---|
4639 | | (_mm_movemask_epi8(__hi128(__k)) << 16));
|
---|
4640 | __bool4 &= 0x01010101;
|
---|
4641 | __builtin_memcpy(__mem, &__bool4, _Np);
|
---|
4642 | }
|
---|
4643 | else if constexpr (_Np <= 8 && sizeof(_Tp) == 4)
|
---|
4644 | {
|
---|
4645 | const auto __k = __intrin_bitcast<__m256i>(__to_intrin(__v));
|
---|
4646 | const auto __k2
|
---|
4647 | = _mm_srli_epi16(_mm_packs_epi16(__lo128(__k), __hi128(__k)),
|
---|
4648 | 15);
|
---|
4649 | const auto __k3
|
---|
4650 | = __vector_bitcast<char>(_mm_packs_epi16(__k2, __m128i()));
|
---|
4651 | _CommonImplX86::_S_store<_Np>(__k3, __mem);
|
---|
4652 | }
|
---|
4653 | else if constexpr (_Np <= 16 && sizeof(_Tp) == 2)
|
---|
4654 | {
|
---|
4655 | if constexpr (__have_avx2)
|
---|
4656 | {
|
---|
4657 | const auto __x = _mm256_srli_epi16(__to_intrin(__v), 15);
|
---|
4658 | const auto __bools = __vector_bitcast<char>(
|
---|
4659 | _mm_packs_epi16(__lo128(__x), __hi128(__x)));
|
---|
4660 | _CommonImplX86::_S_store<_Np>(__bools, __mem);
|
---|
4661 | }
|
---|
4662 | else
|
---|
4663 | {
|
---|
4664 | const auto __bools
|
---|
4665 | = 1
|
---|
4666 | & __vector_bitcast<_UChar>(
|
---|
4667 | _mm_packs_epi16(__lo128(__to_intrin(__v)),
|
---|
4668 | __hi128(__to_intrin(__v))));
|
---|
4669 | _CommonImplX86::_S_store<_Np>(__bools, __mem);
|
---|
4670 | }
|
---|
4671 | }
|
---|
4672 | else if constexpr (_Np <= 32 && sizeof(_Tp) == 1)
|
---|
4673 | _CommonImplX86::_S_store<_Np>(1 & __v._M_data, __mem);
|
---|
4674 | else
|
---|
4675 | __assert_unreachable<_Tp>();
|
---|
4676 | } // }}}
|
---|
4677 | else
|
---|
4678 | __assert_unreachable<_Tp>();
|
---|
4679 | }
|
---|
4680 |
|
---|
4681 | // _S_masked_store {{{2
|
---|
4682 | template <typename _Tp, size_t _Np>
|
---|
4683 | static inline void
|
---|
4684 | _S_masked_store(const _SimdWrapper<_Tp, _Np> __v, bool* __mem,
|
---|
4685 | const _SimdWrapper<_Tp, _Np> __k) noexcept
|
---|
4686 | {
|
---|
4687 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
4688 | {
|
---|
4689 | static_assert(is_same_v<_Tp, bool>);
|
---|
4690 | if constexpr (_Np <= 16 && __have_avx512bw_vl)
|
---|
4691 | _mm_mask_storeu_epi8(__mem, __k, _mm_maskz_set1_epi8(__v, 1));
|
---|
4692 | else if constexpr (_Np <= 16)
|
---|
4693 | _mm512_mask_cvtepi32_storeu_epi8(__mem, __k,
|
---|
4694 | _mm512_maskz_set1_epi32(__v, 1));
|
---|
4695 | else if constexpr (_Np <= 32 && __have_avx512bw_vl)
|
---|
4696 | _mm256_mask_storeu_epi8(__mem, __k,
|
---|
4697 | _mm256_maskz_set1_epi8(__v, 1));
|
---|
4698 | else if constexpr (_Np <= 32 && __have_avx512bw)
|
---|
4699 | _mm256_mask_storeu_epi8(__mem, __k,
|
---|
4700 | __lo256(_mm512_maskz_set1_epi8(__v, 1)));
|
---|
4701 | else if constexpr (_Np <= 64 && __have_avx512bw)
|
---|
4702 | _mm512_mask_storeu_epi8(__mem, __k,
|
---|
4703 | _mm512_maskz_set1_epi8(__v, 1));
|
---|
4704 | else
|
---|
4705 | __assert_unreachable<_Tp>();
|
---|
4706 | }
|
---|
4707 | else
|
---|
4708 | _Base::_S_masked_store(__v, __mem, __k);
|
---|
4709 | }
|
---|
4710 |
|
---|
4711 | // logical and bitwise operators {{{2
|
---|
4712 | template <typename _Tp, size_t _Np>
|
---|
4713 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
|
---|
4714 | _S_logical_and(const _SimdWrapper<_Tp, _Np>& __x,
|
---|
4715 | const _SimdWrapper<_Tp, _Np>& __y)
|
---|
4716 | {
|
---|
4717 | if constexpr (is_same_v<_Tp, bool>)
|
---|
4718 | {
|
---|
4719 | if constexpr (__have_avx512dq && _Np <= 8)
|
---|
4720 | return _kand_mask8(__x._M_data, __y._M_data);
|
---|
4721 | else if constexpr (_Np <= 16)
|
---|
4722 | return _kand_mask16(__x._M_data, __y._M_data);
|
---|
4723 | else if constexpr (__have_avx512bw && _Np <= 32)
|
---|
4724 | return _kand_mask32(__x._M_data, __y._M_data);
|
---|
4725 | else if constexpr (__have_avx512bw && _Np <= 64)
|
---|
4726 | return _kand_mask64(__x._M_data, __y._M_data);
|
---|
4727 | else
|
---|
4728 | __assert_unreachable<_Tp>();
|
---|
4729 | }
|
---|
4730 | else
|
---|
4731 | return _Base::_S_logical_and(__x, __y);
|
---|
4732 | }
|
---|
4733 |
|
---|
4734 | template <typename _Tp, size_t _Np>
|
---|
4735 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
|
---|
4736 | _S_logical_or(const _SimdWrapper<_Tp, _Np>& __x,
|
---|
4737 | const _SimdWrapper<_Tp, _Np>& __y)
|
---|
4738 | {
|
---|
4739 | if constexpr (is_same_v<_Tp, bool>)
|
---|
4740 | {
|
---|
4741 | if constexpr (__have_avx512dq && _Np <= 8)
|
---|
4742 | return _kor_mask8(__x._M_data, __y._M_data);
|
---|
4743 | else if constexpr (_Np <= 16)
|
---|
4744 | return _kor_mask16(__x._M_data, __y._M_data);
|
---|
4745 | else if constexpr (__have_avx512bw && _Np <= 32)
|
---|
4746 | return _kor_mask32(__x._M_data, __y._M_data);
|
---|
4747 | else if constexpr (__have_avx512bw && _Np <= 64)
|
---|
4748 | return _kor_mask64(__x._M_data, __y._M_data);
|
---|
4749 | else
|
---|
4750 | __assert_unreachable<_Tp>();
|
---|
4751 | }
|
---|
4752 | else
|
---|
4753 | return _Base::_S_logical_or(__x, __y);
|
---|
4754 | }
|
---|
4755 |
|
---|
4756 | template <typename _Tp, size_t _Np>
|
---|
4757 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
|
---|
4758 | _S_bit_not(const _SimdWrapper<_Tp, _Np>& __x)
|
---|
4759 | {
|
---|
4760 | if constexpr (is_same_v<_Tp, bool>)
|
---|
4761 | {
|
---|
4762 | if constexpr (__have_avx512dq && _Np <= 8)
|
---|
4763 | return _kandn_mask8(__x._M_data,
|
---|
4764 | _Abi::template __implicit_mask_n<_Np>());
|
---|
4765 | else if constexpr (_Np <= 16)
|
---|
4766 | return _kandn_mask16(__x._M_data,
|
---|
4767 | _Abi::template __implicit_mask_n<_Np>());
|
---|
4768 | else if constexpr (__have_avx512bw && _Np <= 32)
|
---|
4769 | return _kandn_mask32(__x._M_data,
|
---|
4770 | _Abi::template __implicit_mask_n<_Np>());
|
---|
4771 | else if constexpr (__have_avx512bw && _Np <= 64)
|
---|
4772 | return _kandn_mask64(__x._M_data,
|
---|
4773 | _Abi::template __implicit_mask_n<_Np>());
|
---|
4774 | else
|
---|
4775 | __assert_unreachable<_Tp>();
|
---|
4776 | }
|
---|
4777 | else
|
---|
4778 | return _Base::_S_bit_not(__x);
|
---|
4779 | }
|
---|
4780 |
|
---|
4781 | template <typename _Tp, size_t _Np>
|
---|
4782 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
|
---|
4783 | _S_bit_and(const _SimdWrapper<_Tp, _Np>& __x,
|
---|
4784 | const _SimdWrapper<_Tp, _Np>& __y)
|
---|
4785 | {
|
---|
4786 | if constexpr (is_same_v<_Tp, bool>)
|
---|
4787 | {
|
---|
4788 | if constexpr (__have_avx512dq && _Np <= 8)
|
---|
4789 | return _kand_mask8(__x._M_data, __y._M_data);
|
---|
4790 | else if constexpr (_Np <= 16)
|
---|
4791 | return _kand_mask16(__x._M_data, __y._M_data);
|
---|
4792 | else if constexpr (__have_avx512bw && _Np <= 32)
|
---|
4793 | return _kand_mask32(__x._M_data, __y._M_data);
|
---|
4794 | else if constexpr (__have_avx512bw && _Np <= 64)
|
---|
4795 | return _kand_mask64(__x._M_data, __y._M_data);
|
---|
4796 | else
|
---|
4797 | __assert_unreachable<_Tp>();
|
---|
4798 | }
|
---|
4799 | else
|
---|
4800 | return _Base::_S_bit_and(__x, __y);
|
---|
4801 | }
|
---|
4802 |
|
---|
4803 | template <typename _Tp, size_t _Np>
|
---|
4804 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
|
---|
4805 | _S_bit_or(const _SimdWrapper<_Tp, _Np>& __x,
|
---|
4806 | const _SimdWrapper<_Tp, _Np>& __y)
|
---|
4807 | {
|
---|
4808 | if constexpr (is_same_v<_Tp, bool>)
|
---|
4809 | {
|
---|
4810 | if constexpr (__have_avx512dq && _Np <= 8)
|
---|
4811 | return _kor_mask8(__x._M_data, __y._M_data);
|
---|
4812 | else if constexpr (_Np <= 16)
|
---|
4813 | return _kor_mask16(__x._M_data, __y._M_data);
|
---|
4814 | else if constexpr (__have_avx512bw && _Np <= 32)
|
---|
4815 | return _kor_mask32(__x._M_data, __y._M_data);
|
---|
4816 | else if constexpr (__have_avx512bw && _Np <= 64)
|
---|
4817 | return _kor_mask64(__x._M_data, __y._M_data);
|
---|
4818 | else
|
---|
4819 | __assert_unreachable<_Tp>();
|
---|
4820 | }
|
---|
4821 | else
|
---|
4822 | return _Base::_S_bit_or(__x, __y);
|
---|
4823 | }
|
---|
4824 |
|
---|
4825 | template <typename _Tp, size_t _Np>
|
---|
4826 | _GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
|
---|
4827 | _S_bit_xor(const _SimdWrapper<_Tp, _Np>& __x,
|
---|
4828 | const _SimdWrapper<_Tp, _Np>& __y)
|
---|
4829 | {
|
---|
4830 | if constexpr (is_same_v<_Tp, bool>)
|
---|
4831 | {
|
---|
4832 | if constexpr (__have_avx512dq && _Np <= 8)
|
---|
4833 | return _kxor_mask8(__x._M_data, __y._M_data);
|
---|
4834 | else if constexpr (_Np <= 16)
|
---|
4835 | return _kxor_mask16(__x._M_data, __y._M_data);
|
---|
4836 | else if constexpr (__have_avx512bw && _Np <= 32)
|
---|
4837 | return _kxor_mask32(__x._M_data, __y._M_data);
|
---|
4838 | else if constexpr (__have_avx512bw && _Np <= 64)
|
---|
4839 | return _kxor_mask64(__x._M_data, __y._M_data);
|
---|
4840 | else
|
---|
4841 | __assert_unreachable<_Tp>();
|
---|
4842 | }
|
---|
4843 | else
|
---|
4844 | return _Base::_S_bit_xor(__x, __y);
|
---|
4845 | }
|
---|
4846 |
|
---|
4847 | //}}}2
|
---|
4848 | // _S_masked_assign{{{
|
---|
4849 | template <size_t _Np>
|
---|
4850 | _GLIBCXX_SIMD_INTRINSIC static void
|
---|
4851 | _S_masked_assign(_SimdWrapper<bool, _Np> __k,
|
---|
4852 | _SimdWrapper<bool, _Np>& __lhs,
|
---|
4853 | _SimdWrapper<bool, _Np> __rhs)
|
---|
4854 | {
|
---|
4855 | __lhs._M_data
|
---|
4856 | = (~__k._M_data & __lhs._M_data) | (__k._M_data & __rhs._M_data);
|
---|
4857 | }
|
---|
4858 |
|
---|
4859 | template <size_t _Np>
|
---|
4860 | _GLIBCXX_SIMD_INTRINSIC static void
|
---|
4861 | _S_masked_assign(_SimdWrapper<bool, _Np> __k,
|
---|
4862 | _SimdWrapper<bool, _Np>& __lhs, bool __rhs)
|
---|
4863 | {
|
---|
4864 | if (__rhs)
|
---|
4865 | __lhs._M_data = __k._M_data | __lhs._M_data;
|
---|
4866 | else
|
---|
4867 | __lhs._M_data = ~__k._M_data & __lhs._M_data;
|
---|
4868 | }
|
---|
4869 |
|
---|
4870 | using _MaskImplBuiltin<_Abi>::_S_masked_assign;
|
---|
4871 |
|
---|
4872 | //}}}
|
---|
4873 | // _S_all_of {{{
|
---|
4874 | template <typename _Tp>
|
---|
4875 | _GLIBCXX_SIMD_INTRINSIC static bool _S_all_of(simd_mask<_Tp, _Abi> __k)
|
---|
4876 | {
|
---|
4877 | if constexpr (__is_sse_abi<_Abi>() || __is_avx_abi<_Abi>())
|
---|
4878 | {
|
---|
4879 | constexpr size_t _Np = simd_size_v<_Tp, _Abi>;
|
---|
4880 | using _TI = __intrinsic_type_t<_Tp, _Np>;
|
---|
4881 | const _TI __a = reinterpret_cast<_TI>(__to_intrin(__data(__k)));
|
---|
4882 | if constexpr (__have_sse4_1)
|
---|
4883 | {
|
---|
4884 | _GLIBCXX_SIMD_USE_CONSTEXPR _TI __b
|
---|
4885 | = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
4886 | return 0 != __testc(__a, __b);
|
---|
4887 | }
|
---|
4888 | else if constexpr (is_same_v<_Tp, float>)
|
---|
4889 | return (_mm_movemask_ps(__a) & ((1 << _Np) - 1))
|
---|
4890 | == (1 << _Np) - 1;
|
---|
4891 | else if constexpr (is_same_v<_Tp, double>)
|
---|
4892 | return (_mm_movemask_pd(__a) & ((1 << _Np) - 1))
|
---|
4893 | == (1 << _Np) - 1;
|
---|
4894 | else
|
---|
4895 | return (_mm_movemask_epi8(__a) & ((1 << (_Np * sizeof(_Tp))) - 1))
|
---|
4896 | == (1 << (_Np * sizeof(_Tp))) - 1;
|
---|
4897 | }
|
---|
4898 | else if constexpr (__is_avx512_abi<_Abi>())
|
---|
4899 | {
|
---|
4900 | constexpr auto _Mask = _Abi::template _S_implicit_mask<_Tp>();
|
---|
4901 | const auto __kk = __k._M_data._M_data;
|
---|
4902 | if constexpr (sizeof(__kk) == 1)
|
---|
4903 | {
|
---|
4904 | if constexpr (__have_avx512dq)
|
---|
4905 | return _kortestc_mask8_u8(__kk, _Mask == 0xff
|
---|
4906 | ? __kk
|
---|
4907 | : __mmask8(~_Mask));
|
---|
4908 | else
|
---|
4909 | return _kortestc_mask16_u8(__kk, __mmask16(~_Mask));
|
---|
4910 | }
|
---|
4911 | else if constexpr (sizeof(__kk) == 2)
|
---|
4912 | return _kortestc_mask16_u8(__kk, _Mask == 0xffff
|
---|
4913 | ? __kk
|
---|
4914 | : __mmask16(~_Mask));
|
---|
4915 | else if constexpr (sizeof(__kk) == 4 && __have_avx512bw)
|
---|
4916 | return _kortestc_mask32_u8(__kk, _Mask == 0xffffffffU
|
---|
4917 | ? __kk
|
---|
4918 | : __mmask32(~_Mask));
|
---|
4919 | else if constexpr (sizeof(__kk) == 8 && __have_avx512bw)
|
---|
4920 | return _kortestc_mask64_u8(__kk, _Mask == 0xffffffffffffffffULL
|
---|
4921 | ? __kk
|
---|
4922 | : __mmask64(~_Mask));
|
---|
4923 | else
|
---|
4924 | __assert_unreachable<_Tp>();
|
---|
4925 | }
|
---|
4926 | }
|
---|
4927 |
|
---|
4928 | // }}}
|
---|
4929 | // _S_any_of {{{
|
---|
4930 | template <typename _Tp>
|
---|
4931 | _GLIBCXX_SIMD_INTRINSIC static bool _S_any_of(simd_mask<_Tp, _Abi> __k)
|
---|
4932 | {
|
---|
4933 | if constexpr (__is_sse_abi<_Abi>() || __is_avx_abi<_Abi>())
|
---|
4934 | {
|
---|
4935 | constexpr size_t _Np = simd_size_v<_Tp, _Abi>;
|
---|
4936 | using _TI = __intrinsic_type_t<_Tp, _Np>;
|
---|
4937 | const _TI __a = reinterpret_cast<_TI>(__to_intrin(__data(__k)));
|
---|
4938 | if constexpr (__have_sse4_1)
|
---|
4939 | {
|
---|
4940 | if constexpr (_Abi::template _S_is_partial<
|
---|
4941 | _Tp> || sizeof(__k) < 16)
|
---|
4942 | {
|
---|
4943 | _GLIBCXX_SIMD_USE_CONSTEXPR _TI __b
|
---|
4944 | = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
4945 | return 0 == __testz(__a, __b);
|
---|
4946 | }
|
---|
4947 | else
|
---|
4948 | return 0 == __testz(__a, __a);
|
---|
4949 | }
|
---|
4950 | else if constexpr (is_same_v<_Tp, float>)
|
---|
4951 | return (_mm_movemask_ps(__a) & ((1 << _Np) - 1)) != 0;
|
---|
4952 | else if constexpr (is_same_v<_Tp, double>)
|
---|
4953 | return (_mm_movemask_pd(__a) & ((1 << _Np) - 1)) != 0;
|
---|
4954 | else
|
---|
4955 | return (_mm_movemask_epi8(__a) & ((1 << (_Np * sizeof(_Tp))) - 1))
|
---|
4956 | != 0;
|
---|
4957 | }
|
---|
4958 | else if constexpr (__is_avx512_abi<_Abi>())
|
---|
4959 | return (__k._M_data._M_data & _Abi::template _S_implicit_mask<_Tp>())
|
---|
4960 | != 0;
|
---|
4961 | }
|
---|
4962 |
|
---|
4963 | // }}}
|
---|
4964 | // _S_none_of {{{
|
---|
4965 | template <typename _Tp>
|
---|
4966 | _GLIBCXX_SIMD_INTRINSIC static bool _S_none_of(simd_mask<_Tp, _Abi> __k)
|
---|
4967 | {
|
---|
4968 | if constexpr (__is_sse_abi<_Abi>() || __is_avx_abi<_Abi>())
|
---|
4969 | {
|
---|
4970 | constexpr size_t _Np = simd_size_v<_Tp, _Abi>;
|
---|
4971 | using _TI = __intrinsic_type_t<_Tp, _Np>;
|
---|
4972 | const _TI __a = reinterpret_cast<_TI>(__to_intrin(__data(__k)));
|
---|
4973 | if constexpr (__have_sse4_1)
|
---|
4974 | {
|
---|
4975 | if constexpr (_Abi::template _S_is_partial<
|
---|
4976 | _Tp> || sizeof(__k) < 16)
|
---|
4977 | {
|
---|
4978 | _GLIBCXX_SIMD_USE_CONSTEXPR _TI __b
|
---|
4979 | = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
4980 | return 0 != __testz(__a, __b);
|
---|
4981 | }
|
---|
4982 | else
|
---|
4983 | return 0 != __testz(__a, __a);
|
---|
4984 | }
|
---|
4985 | else if constexpr (is_same_v<_Tp, float>)
|
---|
4986 | return (__movemask(__a) & ((1 << _Np) - 1)) == 0;
|
---|
4987 | else if constexpr (is_same_v<_Tp, double>)
|
---|
4988 | return (__movemask(__a) & ((1 << _Np) - 1)) == 0;
|
---|
4989 | else
|
---|
4990 | return (__movemask(__a) & int((1ull << (_Np * sizeof(_Tp))) - 1))
|
---|
4991 | == 0;
|
---|
4992 | }
|
---|
4993 | else if constexpr (__is_avx512_abi<_Abi>())
|
---|
4994 | return (__k._M_data._M_data & _Abi::template _S_implicit_mask<_Tp>())
|
---|
4995 | == 0;
|
---|
4996 | }
|
---|
4997 |
|
---|
4998 | // }}}
|
---|
4999 | // _S_some_of {{{
|
---|
5000 | template <typename _Tp>
|
---|
5001 | _GLIBCXX_SIMD_INTRINSIC static bool _S_some_of(simd_mask<_Tp, _Abi> __k)
|
---|
5002 | {
|
---|
5003 | if constexpr (__is_sse_abi<_Abi>() || __is_avx_abi<_Abi>())
|
---|
5004 | {
|
---|
5005 | constexpr size_t _Np = simd_size_v<_Tp, _Abi>;
|
---|
5006 | using _TI = __intrinsic_type_t<_Tp, _Np>;
|
---|
5007 | const _TI __a = reinterpret_cast<_TI>(__to_intrin(__data(__k)));
|
---|
5008 | if constexpr (__have_sse4_1)
|
---|
5009 | {
|
---|
5010 | _GLIBCXX_SIMD_USE_CONSTEXPR _TI __b
|
---|
5011 | = _Abi::template _S_implicit_mask_intrin<_Tp>();
|
---|
5012 | return 0 != __testnzc(__a, __b);
|
---|
5013 | }
|
---|
5014 | else if constexpr (is_same_v<_Tp, float>)
|
---|
5015 | {
|
---|
5016 | constexpr int __allbits = (1 << _Np) - 1;
|
---|
5017 | const auto __tmp = _mm_movemask_ps(__a) & __allbits;
|
---|
5018 | return __tmp > 0 && __tmp < __allbits;
|
---|
5019 | }
|
---|
5020 | else if constexpr (is_same_v<_Tp, double>)
|
---|
5021 | {
|
---|
5022 | constexpr int __allbits = (1 << _Np) - 1;
|
---|
5023 | const auto __tmp = _mm_movemask_pd(__a) & __allbits;
|
---|
5024 | return __tmp > 0 && __tmp < __allbits;
|
---|
5025 | }
|
---|
5026 | else
|
---|
5027 | {
|
---|
5028 | constexpr int __allbits = (1 << (_Np * sizeof(_Tp))) - 1;
|
---|
5029 | const auto __tmp = _mm_movemask_epi8(__a) & __allbits;
|
---|
5030 | return __tmp > 0 && __tmp < __allbits;
|
---|
5031 | }
|
---|
5032 | }
|
---|
5033 | else if constexpr (__is_avx512_abi<_Abi>())
|
---|
5034 | return _S_any_of(__k) && !_S_all_of(__k);
|
---|
5035 | else
|
---|
5036 | __assert_unreachable<_Tp>();
|
---|
5037 | }
|
---|
5038 |
|
---|
5039 | // }}}
|
---|
5040 | // _S_popcount {{{
|
---|
5041 | template <typename _Tp>
|
---|
5042 | _GLIBCXX_SIMD_INTRINSIC static int _S_popcount(simd_mask<_Tp, _Abi> __k)
|
---|
5043 | {
|
---|
5044 | constexpr size_t _Np = simd_size_v<_Tp, _Abi>;
|
---|
5045 | const auto __kk = _Abi::_S_masked(__k._M_data)._M_data;
|
---|
5046 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
5047 | {
|
---|
5048 | if constexpr (_Np > 32)
|
---|
5049 | return __builtin_popcountll(__kk);
|
---|
5050 | else
|
---|
5051 | return __builtin_popcount(__kk);
|
---|
5052 | }
|
---|
5053 | else
|
---|
5054 | {
|
---|
5055 | if constexpr (__have_popcnt)
|
---|
5056 | {
|
---|
5057 | int __bits
|
---|
5058 | = __movemask(__to_intrin(__vector_bitcast<_Tp>(__kk)));
|
---|
5059 | const int __count = __builtin_popcount(__bits);
|
---|
5060 | return is_integral_v<_Tp> ? __count / sizeof(_Tp) : __count;
|
---|
5061 | }
|
---|
5062 | else if constexpr (_Np == 2 && sizeof(_Tp) == 8)
|
---|
5063 | {
|
---|
5064 | const int mask = _mm_movemask_pd(__auto_bitcast(__kk));
|
---|
5065 | return mask - (mask >> 1);
|
---|
5066 | }
|
---|
5067 | else if constexpr (_Np <= 4 && sizeof(_Tp) == 8)
|
---|
5068 | {
|
---|
5069 | auto __x = -(__lo128(__kk) + __hi128(__kk));
|
---|
5070 | return __x[0] + __x[1];
|
---|
5071 | }
|
---|
5072 | else if constexpr (_Np <= 4 && sizeof(_Tp) == 4)
|
---|
5073 | {
|
---|
5074 | if constexpr (__have_sse2)
|
---|
5075 | {
|
---|
5076 | __m128i __x = __intrin_bitcast<__m128i>(__to_intrin(__kk));
|
---|
5077 | __x = _mm_add_epi32(
|
---|
5078 | __x, _mm_shuffle_epi32(__x, _MM_SHUFFLE(0, 1, 2, 3)));
|
---|
5079 | __x = _mm_add_epi32(
|
---|
5080 | __x, _mm_shufflelo_epi16(__x, _MM_SHUFFLE(1, 0, 3, 2)));
|
---|
5081 | return -_mm_cvtsi128_si32(__x);
|
---|
5082 | }
|
---|
5083 | else
|
---|
5084 | return __builtin_popcount(
|
---|
5085 | _mm_movemask_ps(__auto_bitcast(__kk)));
|
---|
5086 | }
|
---|
5087 | else if constexpr (_Np <= 8 && sizeof(_Tp) == 2)
|
---|
5088 | {
|
---|
5089 | auto __x = __to_intrin(__kk);
|
---|
5090 | __x = _mm_add_epi16(__x,
|
---|
5091 | _mm_shuffle_epi32(__x,
|
---|
5092 | _MM_SHUFFLE(0, 1, 2, 3)));
|
---|
5093 | __x = _mm_add_epi16(
|
---|
5094 | __x, _mm_shufflelo_epi16(__x, _MM_SHUFFLE(0, 1, 2, 3)));
|
---|
5095 | __x = _mm_add_epi16(
|
---|
5096 | __x, _mm_shufflelo_epi16(__x, _MM_SHUFFLE(2, 3, 0, 1)));
|
---|
5097 | return -short(_mm_extract_epi16(__x, 0));
|
---|
5098 | }
|
---|
5099 | else if constexpr (_Np <= 16 && sizeof(_Tp) == 1)
|
---|
5100 | {
|
---|
5101 | auto __x = __to_intrin(__kk);
|
---|
5102 | __x = _mm_add_epi8(__x,
|
---|
5103 | _mm_shuffle_epi32(__x,
|
---|
5104 | _MM_SHUFFLE(0, 1, 2, 3)));
|
---|
5105 | __x = _mm_add_epi8(__x,
|
---|
5106 | _mm_shufflelo_epi16(__x, _MM_SHUFFLE(0, 1, 2,
|
---|
5107 | 3)));
|
---|
5108 | __x = _mm_add_epi8(__x,
|
---|
5109 | _mm_shufflelo_epi16(__x, _MM_SHUFFLE(2, 3, 0,
|
---|
5110 | 1)));
|
---|
5111 | auto __y = -__vector_bitcast<_UChar>(__x);
|
---|
5112 | if constexpr (__have_sse4_1)
|
---|
5113 | return __y[0] + __y[1];
|
---|
5114 | else
|
---|
5115 | {
|
---|
5116 | unsigned __z = _mm_extract_epi16(__to_intrin(__y), 0);
|
---|
5117 | return (__z & 0xff) + (__z >> 8);
|
---|
5118 | }
|
---|
5119 | }
|
---|
5120 | else if constexpr (sizeof(__kk) == 32)
|
---|
5121 | {
|
---|
5122 | // The following works only as long as the implementations above
|
---|
5123 | // use a summation
|
---|
5124 | using _I = __int_for_sizeof_t<_Tp>;
|
---|
5125 | const auto __as_int = __vector_bitcast<_I>(__kk);
|
---|
5126 | _MaskImplX86<simd_abi::__sse>::_S_popcount(
|
---|
5127 | simd_mask<_I, simd_abi::__sse>(__private_init,
|
---|
5128 | __lo128(__as_int)
|
---|
5129 | + __hi128(__as_int)));
|
---|
5130 | }
|
---|
5131 | else
|
---|
5132 | __assert_unreachable<_Tp>();
|
---|
5133 | }
|
---|
5134 | }
|
---|
5135 |
|
---|
5136 | // }}}
|
---|
5137 | // _S_find_first_set {{{
|
---|
5138 | template <typename _Tp>
|
---|
5139 | _GLIBCXX_SIMD_INTRINSIC static int
|
---|
5140 | _S_find_first_set(simd_mask<_Tp, _Abi> __k)
|
---|
5141 | {
|
---|
5142 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
5143 | return std::__countr_zero(__k._M_data._M_data);
|
---|
5144 | else
|
---|
5145 | return _Base::_S_find_first_set(__k);
|
---|
5146 | }
|
---|
5147 |
|
---|
5148 | // }}}
|
---|
5149 | // _S_find_last_set {{{
|
---|
5150 | template <typename _Tp>
|
---|
5151 | _GLIBCXX_SIMD_INTRINSIC static int
|
---|
5152 | _S_find_last_set(simd_mask<_Tp, _Abi> __k)
|
---|
5153 | {
|
---|
5154 | if constexpr (__is_avx512_abi<_Abi>())
|
---|
5155 | return std::__bit_width(__k._M_data._M_data) - 1;
|
---|
5156 | else
|
---|
5157 | return _Base::_S_find_last_set(__k);
|
---|
5158 | }
|
---|
5159 |
|
---|
5160 | // }}}
|
---|
5161 | };
|
---|
5162 |
|
---|
5163 | // }}}
|
---|
5164 |
|
---|
5165 | _GLIBCXX_SIMD_END_NAMESPACE
|
---|
5166 | #endif // __cplusplus >= 201703L
|
---|
5167 | #endif // _GLIBCXX_EXPERIMENTAL_SIMD_X86_H_
|
---|
5168 |
|
---|
5169 | // vim: foldmethod=marker sw=2 noet ts=8 sts=2 tw=80
|
---|