Context Navigation

← Previous Revision
Latest Revision
Next Revision →
Blame
Revision Log
Repository URL

simd_x86.h@ 1177

Last change on this file since 1177 was 1166, checked in by rossy, 3 years ago
Daodan: Replace MinGW build env with an up-to-date MSYS2 env
File size: 188.5 KB

Line
1	// Simd x86 specific implementations -- C++ --
2
3	// Copyright (C) 2020-2021 Free Software Foundation, Inc.
4	//
5	// This file is part of the GNU ISO C++ Library. This library is free
6	// software; you can redistribute it and/or modify it under the
7	// terms of the GNU General Public License as published by the
8	// Free Software Foundation; either version 3, or (at your option)
9	// any later version.
10
11	// This library is distributed in the hope that it will be useful,
12	// but WITHOUT ANY WARRANTY; without even the implied warranty of
13	// MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
14	// GNU General Public License for more details.
15
16	// Under Section 7 of GPL version 3, you are granted additional
17	// permissions described in the GCC Runtime Library Exception, version
18	// 3.1, as published by the Free Software Foundation.
19
20	// You should have received a copy of the GNU General Public License and
21	// a copy of the GCC Runtime Library Exception along with this program;
22	// see the files COPYING3 and COPYING.RUNTIME respectively. If not, see
23	// <http://www.gnu.org/licenses/>.
24
25	#ifndef _GLIBCXX_EXPERIMENTAL_SIMD_X86_H_
26	#define _GLIBCXX_EXPERIMENTAL_SIMD_X86_H_
27
28	#if __cplusplus >= 201703L
29
30	#if !_GLIBCXX_SIMD_X86INTRIN
31	#error \
32	"simd_x86.h may only be included when MMX or SSE on x86(_64) are available"
33	#endif
34
35	_GLIBCXX_SIMD_BEGIN_NAMESPACE
36
37	// __to_masktype {{{
38	// Given <T, N> return <__int_for_sizeof_t<T>, N>. For _SimdWrapper and
39	// __vector_type_t.
40	template <typename _Tp, size_t _Np>
41	_GLIBCXX_SIMD_INTRINSIC constexpr _SimdWrapper<__int_for_sizeof_t<_Tp>, _Np>
42	__to_masktype(_SimdWrapper<_Tp, _Np> __x)
43	{
44	return reinterpret_cast<__vector_type_t<__int_for_sizeof_t<_Tp>, _Np>>(
45	__x._M_data);
46	}
47
48	template <typename _TV,
49	typename _TVT
50	= enable_if_t<__is_vector_type_v<_TV>, _VectorTraits<_TV>>,
51	typename _Up = __int_for_sizeof_t<typename _TVT::value_type>>
52	_GLIBCXX_SIMD_INTRINSIC constexpr __vector_type_t<_Up, _TVT::_S_full_size>
53	__to_masktype(_TV __x)
54	{ return reinterpret_cast<__vector_type_t<_Up, _TVT::_S_full_size>>(__x); }
55
56	// }}}
57	// __interleave128_lo {{{
58	template <typename _Ap, typename _Bp, typename _Tp = common_type_t<_Ap, _Bp>,
59	typename _Trait = _VectorTraits<_Tp>>
60	_GLIBCXX_SIMD_INTRINSIC constexpr _Tp
61	__interleave128_lo(const _Ap& __av, const _Bp& __bv)
62	{
63	const _Tp __a(__av);
64	const _Tp __b(__bv);
65	if constexpr (sizeof(_Tp) == 16 && _Trait::_S_full_size == 2)
66	return _Tp{__a[0], __b[0]};
67	else if constexpr (sizeof(_Tp) == 16 && _Trait::_S_full_size == 4)
68	return _Tp{__a[0], __b[0], __a[1], __b[1]};
69	else if constexpr (sizeof(_Tp) == 16 && _Trait::_S_full_size == 8)
70	return _Tp{__a[0], __b[0], __a[1], __b[1],
71	__a[2], __b[2], __a[3], __b[3]};
72	else if constexpr (sizeof(_Tp) == 16 && _Trait::_S_full_size == 16)
73	return _Tp{__a[0], __b[0], __a[1], __b[1], __a[2], __b[2],
74	__a[3], __b[3], __a[4], __b[4], __a[5], __b[5],
75	__a[6], __b[6], __a[7], __b[7]};
76	else if constexpr (sizeof(_Tp) == 32 && _Trait::_S_full_size == 4)
77	return _Tp{__a[0], __b[0], __a[2], __b[2]};
78	else if constexpr (sizeof(_Tp) == 32 && _Trait::_S_full_size == 8)
79	return _Tp{__a[0], __b[0], __a[1], __b[1],
80	__a[4], __b[4], __a[5], __b[5]};
81	else if constexpr (sizeof(_Tp) == 32 && _Trait::_S_full_size == 16)
82	return _Tp{__a[0], __b[0], __a[1], __b[1], __a[2], __b[2],
83	__a[3], __b[3], __a[8], __b[8], __a[9], __b[9],
84	__a[10], __b[10], __a[11], __b[11]};
85	else if constexpr (sizeof(_Tp) == 32 && _Trait::_S_full_size == 32)
86	return _Tp{__a[0], __b[0], __a[1], __b[1], __a[2], __b[2], __a[3],
87	__b[3], __a[4], __b[4], __a[5], __b[5], __a[6], __b[6],
88	__a[7], __b[7], __a[16], __b[16], __a[17], __b[17], __a[18],
89	__b[18], __a[19], __b[19], __a[20], __b[20], __a[21], __b[21],
90	__a[22], __b[22], __a[23], __b[23]};
91	else if constexpr (sizeof(_Tp) == 64 && _Trait::_S_full_size == 8)
92	return _Tp{__a[0], __b[0], __a[2], __b[2],
93	__a[4], __b[4], __a[6], __b[6]};
94	else if constexpr (sizeof(_Tp) == 64 && _Trait::_S_full_size == 16)
95	return _Tp{__a[0], __b[0], __a[1], __b[1], __a[4], __b[4],
96	__a[5], __b[5], __a[8], __b[8], __a[9], __b[9],
97	__a[12], __b[12], __a[13], __b[13]};
98	else if constexpr (sizeof(_Tp) == 64 && _Trait::_S_full_size == 32)
99	return _Tp{__a[0], __b[0], __a[1], __b[1], __a[2], __b[2], __a[3],
100	__b[3], __a[8], __b[8], __a[9], __b[9], __a[10], __b[10],
101	__a[11], __b[11], __a[16], __b[16], __a[17], __b[17], __a[18],
102	__b[18], __a[19], __b[19], __a[24], __b[24], __a[25], __b[25],
103	__a[26], __b[26], __a[27], __b[27]};
104	else if constexpr (sizeof(_Tp) == 64 && _Trait::_S_full_size == 64)
105	return _Tp{__a[0], __b[0], __a[1], __b[1], __a[2], __b[2], __a[3],
106	__b[3], __a[4], __b[4], __a[5], __b[5], __a[6], __b[6],
107	__a[7], __b[7], __a[16], __b[16], __a[17], __b[17], __a[18],
108	__b[18], __a[19], __b[19], __a[20], __b[20], __a[21], __b[21],
109	__a[22], __b[22], __a[23], __b[23], __a[32], __b[32], __a[33],
110	__b[33], __a[34], __b[34], __a[35], __b[35], __a[36], __b[36],
111	__a[37], __b[37], __a[38], __b[38], __a[39], __b[39], __a[48],
112	__b[48], __a[49], __b[49], __a[50], __b[50], __a[51], __b[51],
113	__a[52], __b[52], __a[53], __b[53], __a[54], __b[54], __a[55],
114	__b[55]};
115	else
116	__assert_unreachable<_Tp>();
117	}
118
119	// }}}
120	// __is_zero{{{
121	template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
122	_GLIBCXX_SIMD_INTRINSIC constexpr bool
123	__is_zero(_Tp __a)
124	{
125	if (!__builtin_is_constant_evaluated())
126	{
127	if constexpr (__have_avx)
128	{
129	if constexpr (_TVT::template _S_is<float, 8>)
130	return _mm256_testz_ps(__a, __a);
131	else if constexpr (_TVT::template _S_is<double, 4>)
132	return _mm256_testz_pd(__a, __a);
133	else if constexpr (sizeof(_Tp) == 32)
134	return _mm256_testz_si256(__to_intrin(__a), __to_intrin(__a));
135	else if constexpr (_TVT::template _S_is<float>)
136	return _mm_testz_ps(__to_intrin(__a), __to_intrin(__a));
137	else if constexpr (_TVT::template _S_is<double, 2>)
138	return _mm_testz_pd(__a, __a);
139	else
140	return _mm_testz_si128(__to_intrin(__a), __to_intrin(__a));
141	}
142	else if constexpr (__have_sse4_1)
143	return _mm_testz_si128(__intrin_bitcast<__m128i>(__a),
144	__intrin_bitcast<__m128i>(__a));
145	}
146	else if constexpr (sizeof(_Tp) <= 8)
147	return reinterpret_cast<__int_for_sizeof_t<_Tp>>(__a) == 0;
148	else
149	{
150	const auto __b = __vector_bitcast<_LLong>(__a);
151	if constexpr (sizeof(__b) == 16)
152	return (__b[0] \| __b[1]) == 0;
153	else if constexpr (sizeof(__b) == 32)
154	return __is_zero(__lo128(__b) \| __hi128(__b));
155	else if constexpr (sizeof(__b) == 64)
156	return __is_zero(__lo256(__b) \| __hi256(__b));
157	else
158	__assert_unreachable<_Tp>();
159	}
160	}
161
162	// }}}
163	// __movemask{{{
164	template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
165	_GLIBCXX_SIMD_INTRINSIC _GLIBCXX_CONST int
166	__movemask(_Tp __a)
167	{
168	if constexpr (sizeof(_Tp) == 32)
169	{
170	if constexpr (_TVT::template _S_is<float>)
171	return _mm256_movemask_ps(__to_intrin(__a));
172	else if constexpr (_TVT::template _S_is<double>)
173	return _mm256_movemask_pd(__to_intrin(__a));
174	else
175	return _mm256_movemask_epi8(__to_intrin(__a));
176	}
177	else if constexpr (_TVT::template _S_is<float>)
178	return _mm_movemask_ps(__to_intrin(__a));
179	else if constexpr (_TVT::template _S_is<double>)
180	return _mm_movemask_pd(__to_intrin(__a));
181	else
182	return _mm_movemask_epi8(__to_intrin(__a));
183	}
184
185	// }}}
186	// __testz{{{
187	template <typename _TI, typename _TVT = _VectorTraits<_TI>>
188	_GLIBCXX_SIMD_INTRINSIC _GLIBCXX_CONST constexpr int
189	__testz(_TI __a, _TI __b)
190	{
191	static_assert(is_same_v<_TI, __intrinsic_type_t<typename _TVT::value_type,
192	_TVT::_S_full_size>>);
193	if (!__builtin_is_constant_evaluated())
194	{
195	if constexpr (sizeof(_TI) == 32)
196	{
197	if constexpr (_TVT::template _S_is<float>)
198	return _mm256_testz_ps(__to_intrin(__a), __to_intrin(__b));
199	else if constexpr (_TVT::template _S_is<double>)
200	return _mm256_testz_pd(__to_intrin(__a), __to_intrin(__b));
201	else
202	return _mm256_testz_si256(__to_intrin(__a), __to_intrin(__b));
203	}
204	else if constexpr (_TVT::template _S_is<float> && __have_avx)
205	return _mm_testz_ps(__to_intrin(__a), __to_intrin(__b));
206	else if constexpr (_TVT::template _S_is<double> && __have_avx)
207	return _mm_testz_pd(__to_intrin(__a), __to_intrin(__b));
208	else if constexpr (__have_sse4_1)
209	return _mm_testz_si128(__intrin_bitcast<__m128i>(__to_intrin(__a)),
210	__intrin_bitcast<__m128i>(__to_intrin(__b)));
211	else
212	return __movemask(0 == __and(__a, __b)) != 0;
213	}
214	else
215	return __is_zero(__and(__a, __b));
216	}
217
218	// }}}
219	// __testc{{{
220	// requires SSE4.1 or above
221	template <typename _TI, typename _TVT = _VectorTraits<_TI>>
222	_GLIBCXX_SIMD_INTRINSIC _GLIBCXX_CONST constexpr int
223	__testc(_TI __a, _TI __b)
224	{
225	static_assert(is_same_v<_TI, __intrinsic_type_t<typename _TVT::value_type,
226	_TVT::_S_full_size>>);
227	if (__builtin_is_constant_evaluated())
228	return __is_zero(__andnot(__a, __b));
229
230	if constexpr (sizeof(_TI) == 32)
231	{
232	if constexpr (_TVT::template _S_is<float>)
233	return _mm256_testc_ps(__a, __b);
234	else if constexpr (_TVT::template _S_is<double>)
235	return _mm256_testc_pd(__a, __b);
236	else
237	return _mm256_testc_si256(__to_intrin(__a), __to_intrin(__b));
238	}
239	else if constexpr (_TVT::template _S_is<float> && __have_avx)
240	return _mm_testc_ps(__to_intrin(__a), __to_intrin(__b));
241	else if constexpr (_TVT::template _S_is<double> && __have_avx)
242	return _mm_testc_pd(__to_intrin(__a), __to_intrin(__b));
243	else
244	{
245	static_assert(is_same_v<_TI, _TI> && __have_sse4_1);
246	return _mm_testc_si128(__intrin_bitcast<__m128i>(__to_intrin(__a)),
247	__intrin_bitcast<__m128i>(__to_intrin(__b)));
248	}
249	}
250
251	// }}}
252	// __testnzc{{{
253	template <typename _TI, typename _TVT = _VectorTraits<_TI>>
254	_GLIBCXX_SIMD_INTRINSIC _GLIBCXX_CONST constexpr int
255	__testnzc(_TI __a, _TI __b)
256	{
257	static_assert(is_same_v<_TI, __intrinsic_type_t<typename _TVT::value_type,
258	_TVT::_S_full_size>>);
259	if (!__builtin_is_constant_evaluated())
260	{
261	if constexpr (sizeof(_TI) == 32)
262	{
263	if constexpr (_TVT::template _S_is<float>)
264	return _mm256_testnzc_ps(__a, __b);
265	else if constexpr (_TVT::template _S_is<double>)
266	return _mm256_testnzc_pd(__a, __b);
267	else
268	return _mm256_testnzc_si256(__to_intrin(__a), __to_intrin(__b));
269	}
270	else if constexpr (_TVT::template _S_is<float> && __have_avx)
271	return _mm_testnzc_ps(__to_intrin(__a), __to_intrin(__b));
272	else if constexpr (_TVT::template _S_is<double> && __have_avx)
273	return _mm_testnzc_pd(__to_intrin(__a), __to_intrin(__b));
274	else if constexpr (__have_sse4_1)
275	return _mm_testnzc_si128(__intrin_bitcast<__m128i>(__to_intrin(__a)),
276	__intrin_bitcast<__m128i>(__to_intrin(__b)));
277	else
278	return __movemask(0 == __and(__a, __b)) == 0
279	&& __movemask(0 == __andnot(__a, __b)) == 0;
280	}
281	else
282	return !(__is_zero(__and(__a, __b)) \|\| __is_zero(__andnot(__a, __b)));
283	}
284
285	// }}}
286	// __xzyw{{{
287	// shuffles the complete vector, swapping the inner two quarters. Often useful
288	// for AVX for fixing up a shuffle result.
289	template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
290	_GLIBCXX_SIMD_INTRINSIC _Tp
291	__xzyw(_Tp __a)
292	{
293	if constexpr (sizeof(_Tp) == 16)
294	{
295	const auto __x = __vector_bitcast<conditional_t<
296	is_floating_point_v<typename _TVT::value_type>, float, int>>(__a);
297	return reinterpret_cast<_Tp>(
298	decltype(__x){__x[0], __x[2], __x[1], __x[3]});
299	}
300	else if constexpr (sizeof(_Tp) == 32)
301	{
302	const auto __x = __vector_bitcast<conditional_t<
303	is_floating_point_v<typename _TVT::value_type>, double, _LLong>>(__a);
304	return reinterpret_cast<_Tp>(
305	decltype(__x){__x[0], __x[2], __x[1], __x[3]});
306	}
307	else if constexpr (sizeof(_Tp) == 64)
308	{
309	const auto __x = __vector_bitcast<conditional_t<
310	is_floating_point_v<typename _TVT::value_type>, double, _LLong>>(__a);
311	return reinterpret_cast<_Tp>(decltype(__x){__x[0], __x[1], __x[4],
312	__x[5], __x[2], __x[3],
313	__x[6], __x[7]});
314	}
315	else
316	__assert_unreachable<_Tp>();
317	}
318
319	// }}}
320	// __maskload_epi32{{{
321	template <typename _Tp>
322	_GLIBCXX_SIMD_INTRINSIC auto
323	__maskload_epi32(const int* __ptr, _Tp __k)
324	{
325	if constexpr (sizeof(__k) == 16)
326	return _mm_maskload_epi32(__ptr, __k);
327	else
328	return _mm256_maskload_epi32(__ptr, __k);
329	}
330
331	// }}}
332	// __maskload_epi64{{{
333	template <typename _Tp>
334	_GLIBCXX_SIMD_INTRINSIC auto
335	__maskload_epi64(const _LLong* __ptr, _Tp __k)
336	{
337	if constexpr (sizeof(__k) == 16)
338	return _mm_maskload_epi64(__ptr, __k);
339	else
340	return _mm256_maskload_epi64(__ptr, __k);
341	}
342
343	// }}}
344	// __maskload_ps{{{
345	template <typename _Tp>
346	_GLIBCXX_SIMD_INTRINSIC auto
347	__maskload_ps(const float* __ptr, _Tp __k)
348	{
349	if constexpr (sizeof(__k) == 16)
350	return _mm_maskload_ps(__ptr, __k);
351	else
352	return _mm256_maskload_ps(__ptr, __k);
353	}
354
355	// }}}
356	// __maskload_pd{{{
357	template <typename _Tp>
358	_GLIBCXX_SIMD_INTRINSIC auto
359	__maskload_pd(const double* __ptr, _Tp __k)
360	{
361	if constexpr (sizeof(__k) == 16)
362	return _mm_maskload_pd(__ptr, __k);
363	else
364	return _mm256_maskload_pd(__ptr, __k);
365	}
366
367	// }}}
368
369	#ifdef _GLIBCXX_SIMD_WORKAROUND_PR85048
370	#include "simd_x86_conversions.h"
371	#endif
372
373	// ISA & type detection {{{
374	template <typename _Tp, size_t _Np>
375	constexpr bool
376	__is_sse_ps()
377	{
378	return __have_sse
379	&& is_same_v<_Tp,
380	float> && sizeof(__intrinsic_type_t<_Tp, _Np>) == 16;
381	}
382
383	template <typename _Tp, size_t _Np>
384	constexpr bool
385	__is_sse_pd()
386	{
387	return __have_sse2
388	&& is_same_v<_Tp,
389	double> && sizeof(__intrinsic_type_t<_Tp, _Np>) == 16;
390	}
391
392	template <typename _Tp, size_t _Np>
393	constexpr bool
394	__is_avx_ps()
395	{
396	return __have_avx
397	&& is_same_v<_Tp,
398	float> && sizeof(__intrinsic_type_t<_Tp, _Np>) == 32;
399	}
400
401	template <typename _Tp, size_t _Np>
402	constexpr bool
403	__is_avx_pd()
404	{
405	return __have_avx
406	&& is_same_v<_Tp,
407	double> && sizeof(__intrinsic_type_t<_Tp, _Np>) == 32;
408	}
409
410	template <typename _Tp, size_t _Np>
411	constexpr bool
412	__is_avx512_ps()
413	{
414	return __have_avx512f
415	&& is_same_v<_Tp,
416	float> && sizeof(__intrinsic_type_t<_Tp, _Np>) == 64;
417	}
418
419	template <typename _Tp, size_t _Np>
420	constexpr bool
421	__is_avx512_pd()
422	{
423	return __have_avx512f
424	&& is_same_v<_Tp,
425	double> && sizeof(__intrinsic_type_t<_Tp, _Np>) == 64;
426	}
427
428	// }}}
429	struct _MaskImplX86Mixin;
430
431	// _CommonImplX86 {{{
432	struct _CommonImplX86 : _CommonImplBuiltin
433	{
434	#ifdef _GLIBCXX_SIMD_WORKAROUND_PR85048
435	// _S_converts_via_decomposition {{{
436	template <typename _From, typename _To, size_t _ToSize>
437	static constexpr bool _S_converts_via_decomposition()
438	{
439	if constexpr (is_integral_v<
440	_From> && is_integral_v<_To> && sizeof(_From) == 8
441	&& _ToSize == 16)
442	return (sizeof(_To) == 2 && !__have_ssse3)
443	\|\| (sizeof(_To) == 1 && !__have_avx512f);
444	else if constexpr (is_floating_point_v<_From> && is_integral_v<_To>)
445	return ((sizeof(_From) == 4 \|\| sizeof(_From) == 8) && sizeof(_To) == 8
446	&& !__have_avx512dq)
447	\|\| (sizeof(_From) == 8 && sizeof(_To) == 4 && !__have_sse4_1
448	&& _ToSize == 16);
449	else if constexpr (
450	is_integral_v<_From> && is_floating_point_v<_To> && sizeof(_From) == 8
451	&& !__have_avx512dq)
452	return (sizeof(_To) == 4 && _ToSize == 16)
453	\|\| (sizeof(_To) == 8 && _ToSize < 64);
454	else
455	return false;
456	}
457
458	template <typename _From, typename _To, size_t _ToSize>
459	static inline constexpr bool __converts_via_decomposition_v
460	= _S_converts_via_decomposition<_From, _To, _ToSize>();
461
462	// }}}
463	#endif
464	// _S_store {{{
465	using _CommonImplBuiltin::_S_store;
466
467	template <typename _Tp, size_t _Np>
468	_GLIBCXX_SIMD_INTRINSIC static void _S_store(_SimdWrapper<_Tp, _Np> __x,
469	void* __addr)
470	{
471	constexpr size_t _Bytes = _Np * sizeof(_Tp);
472
473	if constexpr ((_Bytes & (_Bytes - 1)) != 0 && __have_avx512bw_vl)
474	{
475	const auto __v = __to_intrin(__x);
476
477	if constexpr (_Bytes & 1)
478	{
479	if constexpr (_Bytes < 16)
480	_mm_mask_storeu_epi8(__addr, 0xffffu >> (16 - _Bytes),
481	__intrin_bitcast<__m128i>(__v));
482	else if constexpr (_Bytes < 32)
483	_mm256_mask_storeu_epi8(__addr, 0xffffffffu >> (32 - _Bytes),
484	__intrin_bitcast<__m256i>(__v));
485	else
486	_mm512_mask_storeu_epi8(__addr,
487	0xffffffffffffffffull >> (64 - _Bytes),
488	__intrin_bitcast<__m512i>(__v));
489	}
490	else if constexpr (_Bytes & 2)
491	{
492	if constexpr (_Bytes < 16)
493	_mm_mask_storeu_epi16(__addr, 0xffu >> (8 - _Bytes / 2),
494	__intrin_bitcast<__m128i>(__v));
495	else if constexpr (_Bytes < 32)
496	_mm256_mask_storeu_epi16(__addr, 0xffffu >> (16 - _Bytes / 2),
497	__intrin_bitcast<__m256i>(__v));
498	else
499	_mm512_mask_storeu_epi16(__addr,
500	0xffffffffull >> (32 - _Bytes / 2),
501	__intrin_bitcast<__m512i>(__v));
502	}
503	else if constexpr (_Bytes & 4)
504	{
505	if constexpr (_Bytes < 16)
506	_mm_mask_storeu_epi32(__addr, 0xfu >> (4 - _Bytes / 4),
507	__intrin_bitcast<__m128i>(__v));
508	else if constexpr (_Bytes < 32)
509	_mm256_mask_storeu_epi32(__addr, 0xffu >> (8 - _Bytes / 4),
510	__intrin_bitcast<__m256i>(__v));
511	else
512	_mm512_mask_storeu_epi32(__addr, 0xffffull >> (16 - _Bytes / 4),
513	__intrin_bitcast<__m512i>(__v));
514	}
515	else
516	{
517	static_assert(
518	_Bytes > 16,
519	"_Bytes < 16 && (_Bytes & 7) == 0 && (_Bytes & (_Bytes "
520	"- 1)) != 0 is impossible");
521	if constexpr (_Bytes < 32)
522	_mm256_mask_storeu_epi64(__addr, 0xfu >> (4 - _Bytes / 8),
523	__intrin_bitcast<__m256i>(__v));
524	else
525	_mm512_mask_storeu_epi64(__addr, 0xffull >> (8 - _Bytes / 8),
526	__intrin_bitcast<__m512i>(__v));
527	}
528	}
529	else
530	_CommonImplBuiltin::_S_store(__x, __addr);
531	}
532
533	// }}}
534	// _S_store_bool_array(_BitMask) {{{
535	template <size_t _Np, bool _Sanitized>
536	_GLIBCXX_SIMD_INTRINSIC static constexpr void
537	_S_store_bool_array(const _BitMask<_Np, _Sanitized> __x, bool* __mem)
538	{
539	if constexpr (__have_avx512bw_vl) // don't care for BW w/o VL
540	_S_store<_Np>(1 & __vector_bitcast<_UChar, _Np>([=]() constexpr {
541	if constexpr (_Np <= 16)
542	return _mm_movm_epi8(__x._M_to_bits());
543	else if constexpr (_Np <= 32)
544	return _mm256_movm_epi8(__x._M_to_bits());
545	else if constexpr (_Np <= 64)
546	return _mm512_movm_epi8(__x._M_to_bits());
547	else
548	__assert_unreachable<_SizeConstant<_Np>>();
549	}()),
550	__mem);
551	else if constexpr (__have_bmi2)
552	{
553	if constexpr (_Np <= 4)
554	_S_store<_Np>(_pdep_u32(__x._M_to_bits(), 0x01010101U), __mem);
555	else
556	__execute_n_times<__div_roundup(_Np, sizeof(size_t))>(
557	[&](auto __i) {
558	constexpr size_t __offset = __i * sizeof(size_t);
559	constexpr int __todo = std::min(sizeof(size_t), _Np - __offset);
560	if constexpr (__todo == 1)
561	__mem[__offset] = __x[__offset];
562	else
563	{
564	const auto __bools =
565	#ifdef __x86_64__
566	_pdep_u64(__x.template _M_extract<__offset>().to_ullong(),
567	0x0101010101010101ULL);
568	#else // __x86_64__
569	_pdep_u32(
570	__x.template _M_extract<__offset>()._M_to_bits(),
571	0x01010101U);
572	#endif // __x86_64__
573	_S_store<__todo>(__bools, __mem + __offset);
574	}
575	});
576	}
577	else if constexpr (__have_sse2 && _Np > 7)
578	__execute_n_times<__div_roundup(_Np, 16)>([&](auto __i) {
579	constexpr int __offset = __i * 16;
580	constexpr int __todo = std::min(16, int(_Np) - __offset);
581	const int __bits = __x.template _M_extract<__offset>()._M_to_bits();
582	__vector_type16_t<_UChar> __bools;
583	if constexpr (__have_avx512f)
584	{
585	auto __as32bits
586	= _mm512_maskz_mov_epi32(__bits, __to_intrin(
587	__vector_broadcast<16>(1)));
588	auto __as16bits
589	= __xzyw(_mm256_packs_epi32(__lo256(__as32bits),
590	__todo > 8 ? __hi256(__as32bits)
591	: __m256i()));
592	__bools = __vector_bitcast<_UChar>(
593	_mm_packs_epi16(__lo128(__as16bits), __hi128(__as16bits)));
594	}
595	else
596	{
597	using _V = __vector_type_t<_UChar, 16>;
598	auto __tmp = _mm_cvtsi32_si128(__bits);
599	__tmp = _mm_unpacklo_epi8(__tmp, __tmp);
600	__tmp = _mm_unpacklo_epi16(__tmp, __tmp);
601	__tmp = _mm_unpacklo_epi32(__tmp, __tmp);
602	_V __tmp2 = reinterpret_cast<_V>(__tmp);
603	__tmp2 &= _V{1, 2, 4, 8, 16, 32, 64, 128,
604	1, 2, 4, 8, 16, 32, 64, 128}; // mask bit index
605	__bools = (__tmp2 == 0) + 1; // 0xff -> 0x00 \| 0x00 -> 0x01
606	}
607	_S_store<__todo>(__bools, __mem + __offset);
608	});
609	else
610	_CommonImplBuiltin::_S_store_bool_array(__x, __mem);
611	}
612
613	// }}}
614	// _S_blend_avx512 {{{
615	// Returns: __k ? __b : __a
616	// TODO: reverse __a and __b to match COND_EXPR
617	// Requires: _TV to be a __vector_type_t matching valuetype for the bitmask
618	// __k
619	template <typename _Kp, typename _TV>
620	_GLIBCXX_SIMD_INTRINSIC static _TV
621	_S_blend_avx512(const _Kp __k, const _TV __a, const _TV __b) noexcept
622	{
623	#ifdef __clang__
624	// FIXME: this does a boolean choice, not a blend
625	return __k ? __a : __b;
626	#else
627	static_assert(__is_vector_type_v<_TV>);
628	using _Tp = typename _VectorTraits<_TV>::value_type;
629	static_assert(sizeof(_TV) >= 16);
630	static_assert(sizeof(_Tp) <= 8);
631	using _IntT
632	= conditional_t<(sizeof(_Tp) > 2),
633	conditional_t<sizeof(_Tp) == 4, int, long long>,
634	conditional_t<sizeof(_Tp) == 1, char, short>>;
635	[[maybe_unused]] const auto __aa = __vector_bitcast<_IntT>(__a);
636	[[maybe_unused]] const auto __bb = __vector_bitcast<_IntT>(__b);
637	if constexpr (sizeof(_TV) == 64)
638	{
639	if constexpr (sizeof(_Tp) == 1)
640	return reinterpret_cast<_TV>(
641	__builtin_ia32_blendmb_512_mask(__aa, __bb, __k));
642	else if constexpr (sizeof(_Tp) == 2)
643	return reinterpret_cast<_TV>(
644	__builtin_ia32_blendmw_512_mask(__aa, __bb, __k));
645	else if constexpr (sizeof(_Tp) == 4 && is_floating_point_v<_Tp>)
646	return __builtin_ia32_blendmps_512_mask(__a, __b, __k);
647	else if constexpr (sizeof(_Tp) == 4)
648	return reinterpret_cast<_TV>(
649	__builtin_ia32_blendmd_512_mask(__aa, __bb, __k));
650	else if constexpr (sizeof(_Tp) == 8 && is_floating_point_v<_Tp>)
651	return __builtin_ia32_blendmpd_512_mask(__a, __b, __k);
652	else if constexpr (sizeof(_Tp) == 8)
653	return reinterpret_cast<_TV>(
654	__builtin_ia32_blendmq_512_mask(__aa, __bb, __k));
655	}
656	else if constexpr (sizeof(_TV) == 32)
657	{
658	if constexpr (sizeof(_Tp) == 1)
659	return reinterpret_cast<_TV>(
660	__builtin_ia32_blendmb_256_mask(__aa, __bb, __k));
661	else if constexpr (sizeof(_Tp) == 2)
662	return reinterpret_cast<_TV>(
663	__builtin_ia32_blendmw_256_mask(__aa, __bb, __k));
664	else if constexpr (sizeof(_Tp) == 4 && is_floating_point_v<_Tp>)
665	return __builtin_ia32_blendmps_256_mask(__a, __b, __k);
666	else if constexpr (sizeof(_Tp) == 4)
667	return reinterpret_cast<_TV>(
668	__builtin_ia32_blendmd_256_mask(__aa, __bb, __k));
669	else if constexpr (sizeof(_Tp) == 8 && is_floating_point_v<_Tp>)
670	return __builtin_ia32_blendmpd_256_mask(__a, __b, __k);
671	else if constexpr (sizeof(_Tp) == 8)
672	return reinterpret_cast<_TV>(
673	__builtin_ia32_blendmq_256_mask(__aa, __bb, __k));
674	}
675	else if constexpr (sizeof(_TV) == 16)
676	{
677	if constexpr (sizeof(_Tp) == 1)
678	return reinterpret_cast<_TV>(
679	__builtin_ia32_blendmb_128_mask(__aa, __bb, __k));
680	else if constexpr (sizeof(_Tp) == 2)
681	return reinterpret_cast<_TV>(
682	__builtin_ia32_blendmw_128_mask(__aa, __bb, __k));
683	else if constexpr (sizeof(_Tp) == 4 && is_floating_point_v<_Tp>)
684	return __builtin_ia32_blendmps_128_mask(__a, __b, __k);
685	else if constexpr (sizeof(_Tp) == 4)
686	return reinterpret_cast<_TV>(
687	__builtin_ia32_blendmd_128_mask(__aa, __bb, __k));
688	else if constexpr (sizeof(_Tp) == 8 && is_floating_point_v<_Tp>)
689	return __builtin_ia32_blendmpd_128_mask(__a, __b, __k);
690	else if constexpr (sizeof(_Tp) == 8)
691	return reinterpret_cast<_TV>(
692	__builtin_ia32_blendmq_128_mask(__aa, __bb, __k));
693	}
694	#endif
695	}
696
697	// }}}
698	// _S_blend_intrin {{{
699	// Returns: __k ? __b : __a
700	// TODO: reverse __a and __b to match COND_EXPR
701	// Requires: _Tp to be an intrinsic type (integers blend per byte) and 16/32
702	// Bytes wide
703	template <typename _Tp>
704	_GLIBCXX_SIMD_INTRINSIC static _Tp _S_blend_intrin(_Tp __k, _Tp __a,
705	_Tp __b) noexcept
706	{
707	static_assert(is_same_v<decltype(__to_intrin(__a)), _Tp>);
708	constexpr struct
709	{
710	_GLIBCXX_SIMD_INTRINSIC __m128 operator()(__m128 __a, __m128 __b,
711	__m128 __k) const noexcept
712	{
713	return __builtin_ia32_blendvps(__a, __b, __k);
714	}
715	_GLIBCXX_SIMD_INTRINSIC __m128d operator()(__m128d __a, __m128d __b,
716	__m128d __k) const noexcept
717	{
718	return __builtin_ia32_blendvpd(__a, __b, __k);
719	}
720	_GLIBCXX_SIMD_INTRINSIC __m128i operator()(__m128i __a, __m128i __b,
721	__m128i __k) const noexcept
722	{
723	return reinterpret_cast<__m128i>(
724	__builtin_ia32_pblendvb128(reinterpret_cast<__v16qi>(__a),
725	reinterpret_cast<__v16qi>(__b),
726	reinterpret_cast<__v16qi>(__k)));
727	}
728	_GLIBCXX_SIMD_INTRINSIC __m256 operator()(__m256 __a, __m256 __b,
729	__m256 __k) const noexcept
730	{
731	return __builtin_ia32_blendvps256(__a, __b, __k);
732	}
733	_GLIBCXX_SIMD_INTRINSIC __m256d operator()(__m256d __a, __m256d __b,
734	__m256d __k) const noexcept
735	{
736	return __builtin_ia32_blendvpd256(__a, __b, __k);
737	}
738	_GLIBCXX_SIMD_INTRINSIC __m256i operator()(__m256i __a, __m256i __b,
739	__m256i __k) const noexcept
740	{
741	if constexpr (__have_avx2)
742	return reinterpret_cast<__m256i>(
743	__builtin_ia32_pblendvb256(reinterpret_cast<__v32qi>(__a),
744	reinterpret_cast<__v32qi>(__b),
745	reinterpret_cast<__v32qi>(__k)));
746	else
747	return reinterpret_cast<__m256i>(
748	__builtin_ia32_blendvps256(reinterpret_cast<__v8sf>(__a),
749	reinterpret_cast<__v8sf>(__b),
750	reinterpret_cast<__v8sf>(__k)));
751	}
752	} __eval;
753	return __eval(__a, __b, __k);
754	}
755
756	// }}}
757	// _S_blend {{{
758	// Returns: __k ? __at1 : __at0
759	// TODO: reverse __at0 and __at1 to match COND_EXPR
760	template <typename _Tp, size_t _Np>
761	_GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
762	_S_blend(_SimdWrapper<bool, _Np> __k, _SimdWrapper<_Tp, _Np> __at0,
763	_SimdWrapper<_Tp, _Np> __at1)
764	{
765	static_assert(is_same_v<_Tp, _Tp> && __have_avx512f);
766	if (__k._M_is_constprop() && __at0._M_is_constprop()
767	&& __at1._M_is_constprop())
768	return __generate_from_n_evaluations<_Np,
769	__vector_type_t<_Tp, _Np>>([&](
770	auto __i) constexpr { return __k[__i] ? __at1[__i] : __at0[__i]; });
771	else if constexpr (sizeof(__at0) == 64
772	\|\| (__have_avx512vl && sizeof(__at0) >= 16))
773	return _S_blend_avx512(__k._M_data, __at0._M_data, __at1._M_data);
774	else
775	{
776	static_assert((__have_avx512vl && sizeof(__at0) < 16)
777	\|\| !__have_avx512vl);
778	constexpr size_t __size = (__have_avx512vl ? 16 : 64) / sizeof(_Tp);
779	return __vector_bitcast<_Tp, _Np>(
780	_S_blend_avx512(__k._M_data, __vector_bitcast<_Tp, __size>(__at0),
781	__vector_bitcast<_Tp, __size>(__at1)));
782	}
783	}
784
785	template <typename _Tp, size_t _Np>
786	_GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
787	_S_blend(_SimdWrapper<__int_for_sizeof_t<_Tp>, _Np> __k,
788	_SimdWrapper<_Tp, _Np> __at0, _SimdWrapper<_Tp, _Np> __at1)
789	{
790	const auto __kk = __wrapper_bitcast<_Tp>(__k);
791	if (__builtin_is_constant_evaluated()
792	\|\| (__kk._M_is_constprop() && __at0._M_is_constprop()
793	&& __at1._M_is_constprop()))
794	{
795	auto __r = __or(__andnot(__kk, __at0), __and(__kk, __at1));
796	if (__r._M_is_constprop())
797	return __r;
798	}
799	if constexpr (((__have_avx512f && sizeof(__at0) == 64) \|\| __have_avx512vl)
800	&& (sizeof(_Tp) >= 4 \|\| __have_avx512bw))
801	// convert to bitmask and call overload above
802	return _S_blend(
803	_SimdWrapper<bool, _Np>(
804	__make_dependent_t<_Tp, _MaskImplX86Mixin>::_S_to_bits(__k)
805	._M_to_bits()),
806	__at0, __at1);
807	else
808	{
809	// Since GCC does not assume __k to be a mask, using the builtin
810	// conditional operator introduces an extra compare against 0 before
811	// blending. So we rather call the intrinsic here.
812	if constexpr (__have_sse4_1)
813	return _S_blend_intrin(__to_intrin(__kk), __to_intrin(__at0),
814	__to_intrin(__at1));
815	else
816	return __or(__andnot(__kk, __at0), __and(__kk, __at1));
817	}
818	}
819
820	// }}}
821	};
822
823	// }}}
824	// _SimdImplX86 {{{
825	template <typename _Abi>
826	struct _SimdImplX86 : _SimdImplBuiltin<_Abi>
827	{
828	using _Base = _SimdImplBuiltin<_Abi>;
829
830	template <typename _Tp>
831	using _MaskMember = typename _Base::template _MaskMember<_Tp>;
832
833	template <typename _Tp>
834	static constexpr size_t _S_full_size = _Abi::template _S_full_size<_Tp>;
835
836	template <typename _Tp>
837	static constexpr size_t _S_size = _Abi::template _S_size<_Tp>;
838
839	template <typename _Tp>
840	static constexpr size_t _S_max_store_size
841	= (sizeof(_Tp) >= 4 && __have_avx512f) \|\| __have_avx512bw ? 64
842	: (is_floating_point_v<_Tp>&& __have_avx) \|\| __have_avx2 ? 32
843	: 16;
844	using _MaskImpl = typename _Abi::_MaskImpl;
845
846	// _S_masked_load {{{
847	template <typename _Tp, size_t _Np, typename _Up>
848	static inline _SimdWrapper<_Tp, _Np>
849	_S_masked_load(_SimdWrapper<_Tp, _Np> __merge, _MaskMember<_Tp> __k,
850	const _Up* __mem) noexcept
851	{
852	static_assert(_Np == _S_size<_Tp>);
853	if constexpr (is_same_v<_Tp, _Up> \|\| // no conversion
854	(sizeof(_Tp) == sizeof(_Up)
855	&& is_integral_v<
856	_Tp> == is_integral_v<_Up>) // conversion via bit
857	// reinterpretation
858	)
859	{
860	[[maybe_unused]] const auto __intrin = __to_intrin(__merge);
861	if constexpr ((__is_avx512_abi<_Abi>() \|\| __have_avx512bw_vl)
862	&& sizeof(_Tp) == 1)
863	{
864	const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
865	if constexpr (sizeof(__intrin) == 16)
866	__merge = __vector_bitcast<_Tp, _Np>(
867	_mm_mask_loadu_epi8(__intrin, __kk, __mem));
868	else if constexpr (sizeof(__merge) == 32)
869	__merge = __vector_bitcast<_Tp, _Np>(
870	_mm256_mask_loadu_epi8(__intrin, __kk, __mem));
871	else if constexpr (sizeof(__merge) == 64)
872	__merge = __vector_bitcast<_Tp, _Np>(
873	_mm512_mask_loadu_epi8(__intrin, __kk, __mem));
874	else
875	__assert_unreachable<_Tp>();
876	}
877	else if constexpr ((__is_avx512_abi<_Abi>() \|\| __have_avx512bw_vl)
878	&& sizeof(_Tp) == 2)
879	{
880	const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
881	if constexpr (sizeof(__intrin) == 16)
882	__merge = __vector_bitcast<_Tp, _Np>(
883	_mm_mask_loadu_epi16(__intrin, __kk, __mem));
884	else if constexpr (sizeof(__intrin) == 32)
885	__merge = __vector_bitcast<_Tp, _Np>(
886	_mm256_mask_loadu_epi16(__intrin, __kk, __mem));
887	else if constexpr (sizeof(__intrin) == 64)
888	__merge = __vector_bitcast<_Tp, _Np>(
889	_mm512_mask_loadu_epi16(__intrin, __kk, __mem));
890	else
891	__assert_unreachable<_Tp>();
892	}
893	else if constexpr ((__is_avx512_abi<_Abi>() \|\| __have_avx512vl)
894	&& sizeof(_Tp) == 4 && is_integral_v<_Up>)
895	{
896	const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
897	if constexpr (sizeof(__intrin) == 16)
898	__merge = __vector_bitcast<_Tp, _Np>(
899	_mm_mask_loadu_epi32(__intrin, __kk, __mem));
900	else if constexpr (sizeof(__intrin) == 32)
901	__merge = __vector_bitcast<_Tp, _Np>(
902	_mm256_mask_loadu_epi32(__intrin, __kk, __mem));
903	else if constexpr (sizeof(__intrin) == 64)
904	__merge = __vector_bitcast<_Tp, _Np>(
905	_mm512_mask_loadu_epi32(__intrin, __kk, __mem));
906	else
907	__assert_unreachable<_Tp>();
908	}
909	else if constexpr ((__is_avx512_abi<_Abi>() \|\| __have_avx512vl)
910	&& sizeof(_Tp) == 4 && is_floating_point_v<_Up>)
911	{
912	const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
913	if constexpr (sizeof(__intrin) == 16)
914	__merge = __vector_bitcast<_Tp, _Np>(
915	_mm_mask_loadu_ps(__intrin, __kk, __mem));
916	else if constexpr (sizeof(__intrin) == 32)
917	__merge = __vector_bitcast<_Tp, _Np>(
918	_mm256_mask_loadu_ps(__intrin, __kk, __mem));
919	else if constexpr (sizeof(__intrin) == 64)
920	__merge = __vector_bitcast<_Tp, _Np>(
921	_mm512_mask_loadu_ps(__intrin, __kk, __mem));
922	else
923	__assert_unreachable<_Tp>();
924	}
925	else if constexpr (__have_avx2 && sizeof(_Tp) == 4
926	&& is_integral_v<_Up>)
927	{
928	static_assert(sizeof(__intrin) == 16 \|\| sizeof(__intrin) == 32);
929	__merge
930	= __or(__andnot(__vector_bitcast<_Tp>(__k), __merge._M_data),
931	__vector_bitcast<_Tp, _Np>(
932	__maskload_epi32(reinterpret_cast<const int*>(__mem),
933	__to_intrin(__k))));
934	}
935	else if constexpr (__have_avx && sizeof(_Tp) == 4)
936	{
937	static_assert(sizeof(__intrin) == 16 \|\| sizeof(__intrin) == 32);
938	__merge
939	= __or(__andnot(__vector_bitcast<_Tp>(__k), __merge._M_data),
940	__vector_bitcast<_Tp, _Np>(
941	__maskload_ps(reinterpret_cast<const float*>(__mem),
942	__to_intrin(__k))));
943	}
944	else if constexpr ((__is_avx512_abi<_Abi>() \|\| __have_avx512vl)
945	&& sizeof(_Tp) == 8 && is_integral_v<_Up>)
946	{
947	const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
948	if constexpr (sizeof(__intrin) == 16)
949	__merge = __vector_bitcast<_Tp, _Np>(
950	_mm_mask_loadu_epi64(__intrin, __kk, __mem));
951	else if constexpr (sizeof(__intrin) == 32)
952	__merge = __vector_bitcast<_Tp, _Np>(
953	_mm256_mask_loadu_epi64(__intrin, __kk, __mem));
954	else if constexpr (sizeof(__intrin) == 64)
955	__merge = __vector_bitcast<_Tp, _Np>(
956	_mm512_mask_loadu_epi64(__intrin, __kk, __mem));
957	else
958	__assert_unreachable<_Tp>();
959	}
960	else if constexpr ((__is_avx512_abi<_Abi>() \|\| __have_avx512vl)
961	&& sizeof(_Tp) == 8 && is_floating_point_v<_Up>)
962	{
963	const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
964	if constexpr (sizeof(__intrin) == 16)
965	__merge = __vector_bitcast<_Tp, _Np>(
966	_mm_mask_loadu_pd(__intrin, __kk, __mem));
967	else if constexpr (sizeof(__intrin) == 32)
968	__merge = __vector_bitcast<_Tp, _Np>(
969	_mm256_mask_loadu_pd(__intrin, __kk, __mem));
970	else if constexpr (sizeof(__intrin) == 64)
971	__merge = __vector_bitcast<_Tp, _Np>(
972	_mm512_mask_loadu_pd(__intrin, __kk, __mem));
973	else
974	__assert_unreachable<_Tp>();
975	}
976	else if constexpr (__have_avx2 && sizeof(_Tp) == 8
977	&& is_integral_v<_Up>)
978	{
979	static_assert(sizeof(__intrin) == 16 \|\| sizeof(__intrin) == 32);
980	__merge
981	= __or(__andnot(__vector_bitcast<_Tp>(__k), __merge._M_data),
982	__vector_bitcast<_Tp, _Np>(__maskload_epi64(
983	reinterpret_cast<const _LLong*>(__mem),
984	__to_intrin(__k))));
985	}
986	else if constexpr (__have_avx && sizeof(_Tp) == 8)
987	{
988	static_assert(sizeof(__intrin) == 16 \|\| sizeof(__intrin) == 32);
989	__merge
990	= __or(__andnot(__vector_bitcast<_Tp>(__k), __merge._M_data),
991	__vector_bitcast<_Tp, _Np>(
992	__maskload_pd(reinterpret_cast<const double*>(__mem),
993	__to_intrin(__k))));
994	}
995	else
996	_BitOps::_S_bit_iteration(_MaskImpl::_S_to_bits(__k),
997	[&](auto __i) {
998	__merge._M_set(__i, static_cast<_Tp>(
999	__mem[__i]));
1000	});
1001	}
1002	/* Very uncertain, that the following improves anything. Needs
1003	benchmarking
1004	* before it's activated.
1005	else if constexpr (sizeof(_Up) <= 8 && // no long double
1006	!__converts_via_decomposition_v<
1007	_Up, _Tp,
1008	sizeof(__merge)> // conversion via decomposition
1009	// is better handled via the
1010	// bit_iteration fallback below
1011	)
1012	{
1013	// TODO: copy pattern from _S_masked_store, which doesn't resort to
1014	// fixed_size
1015	using _Ap = simd_abi::deduce_t<_Up, _Np>;
1016	using _ATraits = _SimdTraits<_Up, _Ap>;
1017	using _AImpl = typename _ATraits::_SimdImpl;
1018	typename _ATraits::_SimdMember __uncvted{};
1019	typename _ATraits::_MaskMember __kk = _Ap::_MaskImpl::template
1020	_S_convert<_Up>(__k);
1021	__uncvted = _AImpl::_S_masked_load(__uncvted, __kk, __mem);
1022	_SimdConverter<_Up, _Ap, _Tp, _Abi> __converter;
1023	_Base::_S_masked_assign(__k, __merge, __converter(__uncvted));
1024	}
1025	*/
1026	else
1027	__merge = _Base::_S_masked_load(__merge, __k, __mem);
1028	return __merge;
1029	}
1030
1031	// }}}
1032	// _S_masked_store_nocvt {{{
1033	template <typename _Tp, size_t _Np>
1034	_GLIBCXX_SIMD_INTRINSIC static void
1035	_S_masked_store_nocvt(_SimdWrapper<_Tp, _Np> __v, _Tp* __mem,
1036	_SimdWrapper<bool, _Np> __k)
1037	{
1038	[[maybe_unused]] const auto __vi = __to_intrin(__v);
1039	if constexpr (sizeof(__vi) == 64)
1040	{
1041	static_assert(sizeof(__v) == 64 && __have_avx512f);
1042	if constexpr (__have_avx512bw && sizeof(_Tp) == 1)
1043	_mm512_mask_storeu_epi8(__mem, __k, __vi);
1044	else if constexpr (__have_avx512bw && sizeof(_Tp) == 2)
1045	_mm512_mask_storeu_epi16(__mem, __k, __vi);
1046	else if constexpr (__have_avx512f && sizeof(_Tp) == 4)
1047	{
1048	if constexpr (is_integral_v<_Tp>)
1049	_mm512_mask_storeu_epi32(__mem, __k, __vi);
1050	else
1051	_mm512_mask_storeu_ps(__mem, __k, __vi);
1052	}
1053	else if constexpr (__have_avx512f && sizeof(_Tp) == 8)
1054	{
1055	if constexpr (is_integral_v<_Tp>)
1056	_mm512_mask_storeu_epi64(__mem, __k, __vi);
1057	else
1058	_mm512_mask_storeu_pd(__mem, __k, __vi);
1059	}
1060	#if 0 // with KNL either sizeof(_Tp) >= 4 or sizeof(_vi) <= 32
1061	// with Skylake-AVX512, __have_avx512bw is true
1062	else if constexpr (__have_sse2)
1063	{
1064	using _M = __vector_type_t<_Tp, _Np>;
1065	using _MVT = _VectorTraits<_M>;
1066	_mm_maskmoveu_si128(__auto_bitcast(__extract<0, 4>(__v._M_data)),
1067	__auto_bitcast(_MaskImpl::template _S_convert<_Tp, _Np>(__k._M_data)),
1068	reinterpret_cast<char*>(__mem));
1069	_mm_maskmoveu_si128(__auto_bitcast(__extract<1, 4>(__v._M_data)),
1070	__auto_bitcast(_MaskImpl::template _S_convert<_Tp, _Np>(
1071	__k._M_data >> 1 * _MVT::_S_full_size)),
1072	reinterpret_cast<char>(__mem) + 1 16);
1073	_mm_maskmoveu_si128(__auto_bitcast(__extract<2, 4>(__v._M_data)),
1074	__auto_bitcast(_MaskImpl::template _S_convert<_Tp, _Np>(
1075	__k._M_data >> 2 * _MVT::_S_full_size)),
1076	reinterpret_cast<char>(__mem) + 2 16);
1077	if constexpr (_Np > 48 / sizeof(_Tp))
1078	_mm_maskmoveu_si128(
1079	__auto_bitcast(__extract<3, 4>(__v._M_data)),
1080	__auto_bitcast(_MaskImpl::template _S_convert<_Tp, _Np>(
1081	__k._M_data >> 3 * _MVT::_S_full_size)),
1082	reinterpret_cast<char>(__mem) + 3 16);
1083	}
1084	#endif
1085	else
1086	__assert_unreachable<_Tp>();
1087	}
1088	else if constexpr (sizeof(__vi) == 32)
1089	{
1090	if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 1)
1091	_mm256_mask_storeu_epi8(__mem, __k, __vi);
1092	else if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 2)
1093	_mm256_mask_storeu_epi16(__mem, __k, __vi);
1094	else if constexpr (__have_avx512vl && sizeof(_Tp) == 4)
1095	{
1096	if constexpr (is_integral_v<_Tp>)
1097	_mm256_mask_storeu_epi32(__mem, __k, __vi);
1098	else
1099	_mm256_mask_storeu_ps(__mem, __k, __vi);
1100	}
1101	else if constexpr (__have_avx512vl && sizeof(_Tp) == 8)
1102	{
1103	if constexpr (is_integral_v<_Tp>)
1104	_mm256_mask_storeu_epi64(__mem, __k, __vi);
1105	else
1106	_mm256_mask_storeu_pd(__mem, __k, __vi);
1107	}
1108	else if constexpr (__have_avx512f
1109	&& (sizeof(_Tp) >= 4 \|\| __have_avx512bw))
1110	{
1111	// use a 512-bit maskstore, using zero-extension of the bitmask
1112	_S_masked_store_nocvt(
1113	_SimdWrapper64<_Tp>(
1114	__intrin_bitcast<__vector_type64_t<_Tp>>(__v._M_data)),
1115	__mem, _SimdWrapper<bool, 64 / sizeof(_Tp)>(__k._M_data));
1116	}
1117	else
1118	_S_masked_store_nocvt(__v, __mem,
1119	_MaskImpl::template _S_to_maskvector<
1120	__int_for_sizeof_t<_Tp>, _Np>(__k));
1121	}
1122	else if constexpr (sizeof(__vi) == 16)
1123	{
1124	if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 1)
1125	_mm_mask_storeu_epi8(__mem, __k, __vi);
1126	else if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 2)
1127	_mm_mask_storeu_epi16(__mem, __k, __vi);
1128	else if constexpr (__have_avx512vl && sizeof(_Tp) == 4)
1129	{
1130	if constexpr (is_integral_v<_Tp>)
1131	_mm_mask_storeu_epi32(__mem, __k, __vi);
1132	else
1133	_mm_mask_storeu_ps(__mem, __k, __vi);
1134	}
1135	else if constexpr (__have_avx512vl && sizeof(_Tp) == 8)
1136	{
1137	if constexpr (is_integral_v<_Tp>)
1138	_mm_mask_storeu_epi64(__mem, __k, __vi);
1139	else
1140	_mm_mask_storeu_pd(__mem, __k, __vi);
1141	}
1142	else if constexpr (__have_avx512f
1143	&& (sizeof(_Tp) >= 4 \|\| __have_avx512bw))
1144	{
1145	// use a 512-bit maskstore, using zero-extension of the bitmask
1146	_S_masked_store_nocvt(
1147	_SimdWrapper64<_Tp>(
1148	__intrin_bitcast<__intrinsic_type64_t<_Tp>>(__v._M_data)),
1149	__mem, _SimdWrapper<bool, 64 / sizeof(_Tp)>(__k._M_data));
1150	}
1151	else
1152	_S_masked_store_nocvt(__v, __mem,
1153	_MaskImpl::template _S_to_maskvector<
1154	__int_for_sizeof_t<_Tp>, _Np>(__k));
1155	}
1156	else
1157	__assert_unreachable<_Tp>();
1158	}
1159
1160	template <typename _Tp, size_t _Np>
1161	_GLIBCXX_SIMD_INTRINSIC static void
1162	_S_masked_store_nocvt(_SimdWrapper<_Tp, _Np> __v, _Tp* __mem,
1163	_SimdWrapper<__int_for_sizeof_t<_Tp>, _Np> __k)
1164	{
1165	if constexpr (sizeof(__v) <= 16)
1166	{
1167	[[maybe_unused]] const auto __vi
1168	= __intrin_bitcast<__m128i>(__as_vector(__v));
1169	[[maybe_unused]] const auto __ki
1170	= __intrin_bitcast<__m128i>(__as_vector(__k));
1171	if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 1)
1172	_mm_mask_storeu_epi8(__mem, _mm_movepi8_mask(__ki), __vi);
1173	else if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 2)
1174	_mm_mask_storeu_epi16(__mem, _mm_movepi16_mask(__ki), __vi);
1175	else if constexpr (__have_avx2 && sizeof(_Tp) == 4
1176	&& is_integral_v<_Tp>)
1177	_mm_maskstore_epi32(reinterpret_cast<int*>(__mem), __ki, __vi);
1178	else if constexpr (__have_avx && sizeof(_Tp) == 4)
1179	_mm_maskstore_ps(reinterpret_cast<float*>(__mem), __ki,
1180	__vector_bitcast<float>(__vi));
1181	else if constexpr (__have_avx2 && sizeof(_Tp) == 8
1182	&& is_integral_v<_Tp>)
1183	_mm_maskstore_epi64(reinterpret_cast<_LLong*>(__mem), __ki, __vi);
1184	else if constexpr (__have_avx && sizeof(_Tp) == 8)
1185	_mm_maskstore_pd(reinterpret_cast<double*>(__mem), __ki,
1186	__vector_bitcast<double>(__vi));
1187	else if constexpr (__have_sse2)
1188	_mm_maskmoveu_si128(__vi, __ki, reinterpret_cast<char*>(__mem));
1189	}
1190	else if constexpr (sizeof(__v) == 32)
1191	{
1192	[[maybe_unused]] const auto __vi
1193	= __intrin_bitcast<__m256i>(__as_vector(__v));
1194	[[maybe_unused]] const auto __ki
1195	= __intrin_bitcast<__m256i>(__as_vector(__k));
1196	if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 1)
1197	_mm256_mask_storeu_epi8(__mem, _mm256_movepi8_mask(__ki), __vi);
1198	else if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 2)
1199	_mm256_mask_storeu_epi16(__mem, _mm256_movepi16_mask(__ki), __vi);
1200	else if constexpr (__have_avx2 && sizeof(_Tp) == 4
1201	&& is_integral_v<_Tp>)
1202	_mm256_maskstore_epi32(reinterpret_cast<int*>(__mem), __ki, __vi);
1203	else if constexpr (sizeof(_Tp) == 4)
1204	_mm256_maskstore_ps(reinterpret_cast<float*>(__mem), __ki,
1205	__vector_bitcast<float>(__v));
1206	else if constexpr (__have_avx2 && sizeof(_Tp) == 8
1207	&& is_integral_v<_Tp>)
1208	_mm256_maskstore_epi64(reinterpret_cast<_LLong*>(__mem), __ki,
1209	__vi);
1210	else if constexpr (__have_avx && sizeof(_Tp) == 8)
1211	_mm256_maskstore_pd(reinterpret_cast<double*>(__mem), __ki,
1212	__vector_bitcast<double>(__v));
1213	else if constexpr (__have_sse2)
1214	{
1215	_mm_maskmoveu_si128(__lo128(__vi), __lo128(__ki),
1216	reinterpret_cast<char*>(__mem));
1217	_mm_maskmoveu_si128(__hi128(__vi), __hi128(__ki),
1218	reinterpret_cast<char*>(__mem) + 16);
1219	}
1220	}
1221	else
1222	__assert_unreachable<_Tp>();
1223	}
1224
1225	// }}}
1226	// _S_masked_store {{{
1227	template <typename _Tp, size_t _Np, typename _Up>
1228	_GLIBCXX_SIMD_INTRINSIC static void
1229	_S_masked_store(const _SimdWrapper<_Tp, _Np> __v, _Up* __mem,
1230	const _MaskMember<_Tp> __k) noexcept
1231	{
1232	if constexpr (is_integral_v<
1233	_Tp> && is_integral_v<_Up> && sizeof(_Tp) > sizeof(_Up)
1234	&& __have_avx512f && (sizeof(_Tp) >= 4 \|\| __have_avx512bw)
1235	&& (sizeof(__v) == 64 \|\| __have_avx512vl))
1236	{ // truncating store
1237	const auto __vi = __to_intrin(__v);
1238	const auto __kk = _MaskImpl::_S_to_bits(__k)._M_to_bits();
1239	if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 4
1240	&& sizeof(__vi) == 64)
1241	_mm512_mask_cvtepi64_storeu_epi32(__mem, __kk, __vi);
1242	else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 4
1243	&& sizeof(__vi) == 32)
1244	_mm256_mask_cvtepi64_storeu_epi32(__mem, __kk, __vi);
1245	else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 4
1246	&& sizeof(__vi) == 16)
1247	_mm_mask_cvtepi64_storeu_epi32(__mem, __kk, __vi);
1248	else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 2
1249	&& sizeof(__vi) == 64)
1250	_mm512_mask_cvtepi64_storeu_epi16(__mem, __kk, __vi);
1251	else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 2
1252	&& sizeof(__vi) == 32)
1253	_mm256_mask_cvtepi64_storeu_epi16(__mem, __kk, __vi);
1254	else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 2
1255	&& sizeof(__vi) == 16)
1256	_mm_mask_cvtepi64_storeu_epi16(__mem, __kk, __vi);
1257	else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 1
1258	&& sizeof(__vi) == 64)
1259	_mm512_mask_cvtepi64_storeu_epi8(__mem, __kk, __vi);
1260	else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 1
1261	&& sizeof(__vi) == 32)
1262	_mm256_mask_cvtepi64_storeu_epi8(__mem, __kk, __vi);
1263	else if constexpr (sizeof(_Tp) == 8 && sizeof(_Up) == 1
1264	&& sizeof(__vi) == 16)
1265	_mm_mask_cvtepi64_storeu_epi8(__mem, __kk, __vi);
1266	else if constexpr (sizeof(_Tp) == 4 && sizeof(_Up) == 2
1267	&& sizeof(__vi) == 64)
1268	_mm512_mask_cvtepi32_storeu_epi16(__mem, __kk, __vi);
1269	else if constexpr (sizeof(_Tp) == 4 && sizeof(_Up) == 2
1270	&& sizeof(__vi) == 32)
1271	_mm256_mask_cvtepi32_storeu_epi16(__mem, __kk, __vi);
1272	else if constexpr (sizeof(_Tp) == 4 && sizeof(_Up) == 2
1273	&& sizeof(__vi) == 16)
1274	_mm_mask_cvtepi32_storeu_epi16(__mem, __kk, __vi);
1275	else if constexpr (sizeof(_Tp) == 4 && sizeof(_Up) == 1
1276	&& sizeof(__vi) == 64)
1277	_mm512_mask_cvtepi32_storeu_epi8(__mem, __kk, __vi);
1278	else if constexpr (sizeof(_Tp) == 4 && sizeof(_Up) == 1
1279	&& sizeof(__vi) == 32)
1280	_mm256_mask_cvtepi32_storeu_epi8(__mem, __kk, __vi);
1281	else if constexpr (sizeof(_Tp) == 4 && sizeof(_Up) == 1
1282	&& sizeof(__vi) == 16)
1283	_mm_mask_cvtepi32_storeu_epi8(__mem, __kk, __vi);
1284	else if constexpr (sizeof(_Tp) == 2 && sizeof(_Up) == 1
1285	&& sizeof(__vi) == 64)
1286	_mm512_mask_cvtepi16_storeu_epi8(__mem, __kk, __vi);
1287	else if constexpr (sizeof(_Tp) == 2 && sizeof(_Up) == 1
1288	&& sizeof(__vi) == 32)
1289	_mm256_mask_cvtepi16_storeu_epi8(__mem, __kk, __vi);
1290	else if constexpr (sizeof(_Tp) == 2 && sizeof(_Up) == 1
1291	&& sizeof(__vi) == 16)
1292	_mm_mask_cvtepi16_storeu_epi8(__mem, __kk, __vi);
1293	else
1294	__assert_unreachable<_Tp>();
1295	}
1296	else
1297	_Base::_S_masked_store(__v, __mem, __k);
1298	}
1299
1300	// }}}
1301	// _S_multiplies {{{
1302	template <typename _V, typename _VVT = _VectorTraits<_V>>
1303	_GLIBCXX_SIMD_INTRINSIC static constexpr _V _S_multiplies(_V __x, _V __y)
1304	{
1305	using _Tp = typename _VVT::value_type;
1306	if (__builtin_is_constant_evaluated() \|\| __x._M_is_constprop()
1307	\|\| __y._M_is_constprop())
1308	return __as_vector(__x) * __as_vector(__y);
1309	else if constexpr (sizeof(_Tp) == 1)
1310	{
1311	if constexpr (sizeof(_V) == 2)
1312	{
1313	const auto __xs = reinterpret_cast<short>(__x._M_data);
1314	const auto __ys = reinterpret_cast<short>(__y._M_data);
1315	return reinterpret_cast<__vector_type_t<_Tp, 2>>(short(
1316	((__xs * __ys) & 0xff) \| ((__xs >> 8) * (__ys & 0xff00))));
1317	}
1318	else if constexpr (sizeof(_V) == 4 && _VVT::_S_partial_width == 3)
1319	{
1320	const auto __xi = reinterpret_cast<int>(__x._M_data);
1321	const auto __yi = reinterpret_cast<int>(__y._M_data);
1322	return reinterpret_cast<__vector_type_t<_Tp, 3>>(
1323	((__xi * __yi) & 0xff)
1324	\| (((__xi >> 8) * (__yi & 0xff00)) & 0xff00)
1325	\| ((__xi >> 16) * (__yi & 0xff0000)));
1326	}
1327	else if constexpr (sizeof(_V) == 4)
1328	{
1329	const auto __xi = reinterpret_cast<int>(__x._M_data);
1330	const auto __yi = reinterpret_cast<int>(__y._M_data);
1331	return reinterpret_cast<__vector_type_t<_Tp, 4>>(
1332	((__xi * __yi) & 0xff)
1333	\| (((__xi >> 8) * (__yi & 0xff00)) & 0xff00)
1334	\| (((__xi >> 16) * (__yi & 0xff0000)) & 0xff0000)
1335	\| ((__xi >> 24) * (__yi & 0xff000000u)));
1336	}
1337	else if constexpr (sizeof(_V) == 8 && __have_avx2
1338	&& is_signed_v<_Tp>)
1339	return __convert<typename _VVT::type>(
1340	__vector_bitcast<short>(_mm_cvtepi8_epi16(__to_intrin(__x)))
1341	* __vector_bitcast<short>(_mm_cvtepi8_epi16(__to_intrin(__y))));
1342	else if constexpr (sizeof(_V) == 8 && __have_avx2
1343	&& is_unsigned_v<_Tp>)
1344	return __convert<typename _VVT::type>(
1345	__vector_bitcast<short>(_mm_cvtepu8_epi16(__to_intrin(__x)))
1346	* __vector_bitcast<short>(_mm_cvtepu8_epi16(__to_intrin(__y))));
1347	else
1348	{
1349	// codegen of `x*y` is suboptimal (as of GCC 9.0.1)
1350	constexpr size_t __full_size = _VVT::_S_full_size;
1351	constexpr int _Np = sizeof(_V) >= 16 ? __full_size / 2 : 8;
1352	using _ShortW = _SimdWrapper<short, _Np>;
1353	const _ShortW __even = __vector_bitcast<short, _Np>(__x)
1354	* __vector_bitcast<short, _Np>(__y);
1355	_ShortW __high_byte = _ShortW()._M_data - 256;
1356	//[&]() { asm("" : "+x"(__high_byte._M_data)); }();
1357	const _ShortW __odd
1358	= (__vector_bitcast<short, _Np>(__x) >> 8)
1359	* (__vector_bitcast<short, _Np>(__y) & __high_byte._M_data);
1360	if constexpr (__have_avx512bw && sizeof(_V) > 2)
1361	return _CommonImplX86::_S_blend_avx512(
1362	0xaaaa'aaaa'aaaa'aaaaLL, __vector_bitcast<_Tp>(__even),
1363	__vector_bitcast<_Tp>(__odd));
1364	else if constexpr (__have_sse4_1 && sizeof(_V) > 2)
1365	return _CommonImplX86::_S_blend_intrin(__to_intrin(
1366	__high_byte),
1367	__to_intrin(__even),
1368	__to_intrin(__odd));
1369	else
1370	return __to_intrin(
1371	__or(__andnot(__high_byte, __even), __odd));
1372	}
1373	}
1374	else
1375	return _Base::_S_multiplies(__x, __y);
1376	}
1377
1378	// }}}
1379	// _S_divides {{{
1380	#ifdef _GLIBCXX_SIMD_WORKAROUND_PR90993
1381	template <typename _Tp, size_t _Np>
1382	_GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
1383	_S_divides(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
1384	{
1385	if (!__builtin_is_constant_evaluated()
1386	&& !__builtin_constant_p(__y._M_data))
1387	if constexpr (is_integral_v<_Tp> && sizeof(_Tp) <= 4)
1388	{ // use divps - codegen of `x/y` is suboptimal (as of GCC 9.0.1)
1389	// Note that using floating-point division is likely to raise the
1390	// Inexact exception flag and thus appears like an invalid
1391	// "as-if" transformation. However, C++ doesn't specify how the
1392	// fpenv can be observed and points to C. C says that function
1393	// calls are assumed to potentially raise fp exceptions, unless
1394	// documented otherwise. Consequently, operator/, which is a
1395	// function call, may raise fp exceptions.
1396	/*const struct _CsrGuard
1397	{
1398	const unsigned _M_data = _mm_getcsr();
1399	_CsrGuard()
1400	{
1401	_mm_setcsr(0x9f80); // turn off FP exceptions and
1402	flush-to-zero
1403	}
1404	~_CsrGuard() { _mm_setcsr(_M_data); }
1405	} __csr;*/
1406	using _Float = conditional_t<sizeof(_Tp) == 4, double, float>;
1407	constexpr size_t __n_intermediate
1408	= std::min(_Np, (__have_avx512f ? 64
1409	: __have_avx ? 32
1410	: 16)
1411	/ sizeof(_Float));
1412	using _FloatV = __vector_type_t<_Float, __n_intermediate>;
1413	constexpr size_t __n_floatv
1414	= __div_roundup(_Np, __n_intermediate);
1415	using _R = __vector_type_t<_Tp, _Np>;
1416	const auto __xf = __convert_all<_FloatV, __n_floatv>(__x);
1417	const auto __yf = __convert_all<_FloatV, __n_floatv>(
1418	_Abi::__make_padding_nonzero(__as_vector(__y)));
1419	return __call_with_n_evaluations<__n_floatv>(
1420	[](auto... __quotients) {
1421	return __vector_convert<_R>(__quotients...);
1422	},
1423	[&__xf,
1424	&__yf](auto __i) -> _SimdWrapper<_Float, __n_intermediate> {
1425	#if !defined __clang__ && __GCC_IEC_559 == 0
1426	// If -freciprocal-math is active, using the `/` operator is
1427	// incorrect because it may be translated to an imprecise
1428	// multiplication with reciprocal. We need to use inline
1429	// assembly to force a real division.
1430	_FloatV __r;
1431	if constexpr (__have_avx) // -mno-sse2avx is irrelevant
1432	// because once -mavx is given, GCC
1433	// emits VEX encoded vdivp[sd]
1434	{
1435	if constexpr (sizeof(_Tp) == 4)
1436	asm("vdivpd\t{%2, %1, %0\|%0, %1, %2}"
1437	: "=x"(__r)
1438	: "x"(__xf[__i]), "x"(__yf[__i]));
1439	else
1440	asm("vdivps\t{%2, %1, %0\|%0, %1, %2}"
1441	: "=x"(__r)
1442	: "x"(__xf[__i]), "x"(__yf[__i]));
1443	}
1444	else
1445	{
1446	__r = __xf[__i];
1447	if constexpr (sizeof(_Tp) == 4)
1448	asm("divpd\t{%1, %0\|%0, %1}"
1449	: "=x"(__r)
1450	: "x"(__yf[__i]));
1451	else
1452	asm("divps\t{%1, %0\|%0, %1}"
1453	: "=x"(__r)
1454	: "x"(__yf[__i]));
1455	}
1456	return __r;
1457	#else
1458	return __xf[__i] / __yf[__i];
1459	#endif
1460	});
1461	}
1462	/* 64-bit int division is potentially optimizable via double division if
1463	* the value in __x is small enough and the conversion between
1464	* int<->double is efficient enough:
1465	else if constexpr (is_integral_v<_Tp> && is_unsigned_v<_Tp> &&
1466	sizeof(_Tp) == 8)
1467	{
1468	if constexpr (__have_sse4_1 && sizeof(__x) == 16)
1469	{
1470	if (_mm_test_all_zeros(__x, __m128i{0xffe0'0000'0000'0000ull,
1471	0xffe0'0000'0000'0000ull}))
1472	{
1473	__x._M_data \| 0x __vector_convert<__m128d>(__x._M_data)
1474	}
1475	}
1476	}
1477	*/
1478	return _Base::_S_divides(__x, __y);
1479	}
1480	#endif // _GLIBCXX_SIMD_WORKAROUND_PR90993
1481
1482	// }}}
1483	// _S_modulus {{{
1484	template <typename _Tp, size_t _Np>
1485	_GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
1486	_S_modulus(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
1487	{
1488	if (__builtin_is_constant_evaluated()
1489	\|\| __builtin_constant_p(__y._M_data) \|\| sizeof(_Tp) >= 8)
1490	return _Base::_S_modulus(__x, __y);
1491	else
1492	return _Base::_S_minus(__x, _S_multiplies(__y, _S_divides(__x, __y)));
1493	}
1494
1495	// }}}
1496	// _S_bit_shift_left {{{
1497	// Notes on UB. C++2a [expr.shift] says:
1498	// -1- [...] The operands shall be of integral or unscoped enumeration type
1499	// and integral promotions are performed. The type of the result is that
1500	// of the promoted left operand. The behavior is undefined if the right
1501	// operand is negative, or greater than or equal to the width of the
1502	// promoted left operand.
1503	// -2- The value of E1 << E2 is the unique value congruent to E1×2^E2 modulo
1504	// 2^N, where N is the width of the type of the result.
1505	//
1506	// C++17 [expr.shift] says:
1507	// -2- The value of E1 << E2 is E1 left-shifted E2 bit positions; vacated
1508	// bits are zero-filled. If E1 has an unsigned type, the value of the
1509	// result is E1 × 2^E2 , reduced modulo one more than the maximum value
1510	// representable in the result type. Otherwise, if E1 has a signed type
1511	// and non-negative value, and E1 × 2^E2 is representable in the
1512	// corresponding unsigned type of the result type, then that value,
1513	// converted to the result type, is the resulting value; otherwise, the
1514	// behavior is undefined.
1515	//
1516	// Consequences:
1517	// With C++2a signed and unsigned types have the same UB
1518	// characteristics:
1519	// - left shift is not UB for 0 <= RHS < max(32, #bits(T))
1520	//
1521	// With C++17 there's little room for optimizations because the standard
1522	// requires all shifts to happen on promoted integrals (i.e. int). Thus,
1523	// short and char shifts must assume shifts affect bits of neighboring
1524	// values.
1525	#ifndef _GLIBCXX_SIMD_NO_SHIFT_OPT
1526	template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
1527	inline _GLIBCXX_CONST static typename _TVT::type
1528	_S_bit_shift_left(_Tp __xx, int __y)
1529	{
1530	using _V = typename _TVT::type;
1531	using _Up = typename _TVT::value_type;
1532	_V __x = __xx;
1533	[[maybe_unused]] const auto __ix = __to_intrin(__x);
1534	if (__builtin_is_constant_evaluated())
1535	return __x << __y;
1536	#if __cplusplus > 201703
1537	// after C++17, signed shifts have no UB, and behave just like unsigned
1538	// shifts
1539	else if constexpr (sizeof(_Up) == 1 && is_signed_v<_Up>)
1540	return __vector_bitcast<_Up>(
1541	_S_bit_shift_left(__vector_bitcast<make_unsigned_t<_Up>>(__x),
1542	__y));
1543	#endif
1544	else if constexpr (sizeof(_Up) == 1)
1545	{
1546	// (cf. https://gcc.gnu.org/bugzilla/show_bug.cgi?id=83894)
1547	if (__builtin_constant_p(__y))
1548	{
1549	if (__y == 0)
1550	return __x;
1551	else if (__y == 1)
1552	return __x + __x;
1553	else if (__y == 2)
1554	{
1555	__x = __x + __x;
1556	return __x + __x;
1557	}
1558	else if (__y > 2 && __y < 8)
1559	{
1560	if constexpr (sizeof(__x) > sizeof(unsigned))
1561	{
1562	const _UChar __mask = 0xff << __y; // precomputed vector
1563	return __vector_bitcast<_Up>(
1564	__vector_bitcast<_UChar>(
1565	__vector_bitcast<unsigned>(__x) << __y)
1566	& __mask);
1567	}
1568	else
1569	{
1570	const unsigned __mask
1571	= (0xff & (0xff << __y)) * 0x01010101u;
1572	return reinterpret_cast<_V>(
1573	static_cast<__int_for_sizeof_t<_V>>(
1574	unsigned(
1575	reinterpret_cast<__int_for_sizeof_t<_V>>(__x)
1576	<< __y)
1577	& __mask));
1578	}
1579	}
1580	else if (__y >= 8 && __y < 32)
1581	return _V();
1582	else
1583	__builtin_unreachable();
1584	}
1585	// general strategy in the following: use an sllv instead of sll
1586	// instruction, because it's 2 to 4 times faster:
1587	else if constexpr (__have_avx512bw_vl && sizeof(__x) == 16)
1588	return __vector_bitcast<_Up>(_mm256_cvtepi16_epi8(
1589	_mm256_sllv_epi16(_mm256_cvtepi8_epi16(__ix),
1590	_mm256_set1_epi16(__y))));
1591	else if constexpr (__have_avx512bw && sizeof(__x) == 32)
1592	return __vector_bitcast<_Up>(_mm512_cvtepi16_epi8(
1593	_mm512_sllv_epi16(_mm512_cvtepi8_epi16(__ix),
1594	_mm512_set1_epi16(__y))));
1595	else if constexpr (__have_avx512bw && sizeof(__x) == 64)
1596	{
1597	const auto __shift = _mm512_set1_epi16(__y);
1598	return __vector_bitcast<_Up>(
1599	__concat(_mm512_cvtepi16_epi8(_mm512_sllv_epi16(
1600	_mm512_cvtepi8_epi16(__lo256(__ix)), __shift)),
1601	_mm512_cvtepi16_epi8(_mm512_sllv_epi16(
1602	_mm512_cvtepi8_epi16(__hi256(__ix)), __shift))));
1603	}
1604	else if constexpr (__have_avx2 && sizeof(__x) == 32)
1605	{
1606	#if 1
1607	const auto __shift = _mm_cvtsi32_si128(__y);
1608	auto __k
1609	= _mm256_sll_epi16(_mm256_slli_epi16(~__m256i(), 8), __shift);
1610	__k \|= _mm256_srli_epi16(__k, 8);
1611	return __vector_bitcast<_Up>(_mm256_sll_epi32(__ix, __shift)
1612	& __k);
1613	#else
1614	const _Up __k = 0xff << __y;
1615	return __vector_bitcast<_Up>(__vector_bitcast<int>(__x) << __y)
1616	& __k;
1617	#endif
1618	}
1619	else
1620	{
1621	const auto __shift = _mm_cvtsi32_si128(__y);
1622	auto __k
1623	= _mm_sll_epi16(_mm_slli_epi16(~__m128i(), 8), __shift);
1624	__k \|= _mm_srli_epi16(__k, 8);
1625	return __intrin_bitcast<_V>(_mm_sll_epi16(__ix, __shift) & __k);
1626	}
1627	}
1628	return __x << __y;
1629	}
1630
1631	template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
1632	inline _GLIBCXX_CONST static typename _TVT::type
1633	_S_bit_shift_left(_Tp __xx, typename _TVT::type __y)
1634	{
1635	using _V = typename _TVT::type;
1636	using _Up = typename _TVT::value_type;
1637	_V __x = __xx;
1638	[[maybe_unused]] const auto __ix = __to_intrin(__x);
1639	[[maybe_unused]] const auto __iy = __to_intrin(__y);
1640	if (__builtin_is_constant_evaluated())
1641	return __x << __y;
1642	#if __cplusplus > 201703
1643	// after C++17, signed shifts have no UB, and behave just like unsigned
1644	// shifts
1645	else if constexpr (is_signed_v<_Up>)
1646	return __vector_bitcast<_Up>(
1647	_S_bit_shift_left(__vector_bitcast<make_unsigned_t<_Up>>(__x),
1648	__vector_bitcast<make_unsigned_t<_Up>>(__y)));
1649	#endif
1650	else if constexpr (sizeof(_Up) == 1)
1651	{
1652	if constexpr (sizeof __ix == 64 && __have_avx512bw)
1653	return __vector_bitcast<_Up>(__concat(
1654	_mm512_cvtepi16_epi8(
1655	_mm512_sllv_epi16(_mm512_cvtepu8_epi16(__lo256(__ix)),
1656	_mm512_cvtepu8_epi16(__lo256(__iy)))),
1657	_mm512_cvtepi16_epi8(
1658	_mm512_sllv_epi16(_mm512_cvtepu8_epi16(__hi256(__ix)),
1659	_mm512_cvtepu8_epi16(__hi256(__iy))))));
1660	else if constexpr (sizeof __ix == 32 && __have_avx512bw)
1661	return __vector_bitcast<_Up>(_mm512_cvtepi16_epi8(
1662	_mm512_sllv_epi16(_mm512_cvtepu8_epi16(__ix),
1663	_mm512_cvtepu8_epi16(__iy))));
1664	else if constexpr (sizeof __x <= 8 && __have_avx512bw_vl)
1665	return __intrin_bitcast<_V>(
1666	_mm_cvtepi16_epi8(_mm_sllv_epi16(_mm_cvtepu8_epi16(__ix),
1667	_mm_cvtepu8_epi16(__iy))));
1668	else if constexpr (sizeof __ix == 16 && __have_avx512bw_vl)
1669	return __intrin_bitcast<_V>(_mm256_cvtepi16_epi8(
1670	_mm256_sllv_epi16(_mm256_cvtepu8_epi16(__ix),
1671	_mm256_cvtepu8_epi16(__iy))));
1672	else if constexpr (sizeof __ix == 16 && __have_avx512bw)
1673	return __intrin_bitcast<_V>(
1674	__lo128(_mm512_cvtepi16_epi8(_mm512_sllv_epi16(
1675	_mm512_cvtepu8_epi16(_mm256_castsi128_si256(__ix)),
1676	_mm512_cvtepu8_epi16(_mm256_castsi128_si256(__iy))))));
1677	else if constexpr (__have_sse4_1 && sizeof(__x) == 16)
1678	{
1679	auto __mask
1680	= __vector_bitcast<_Up>(__vector_bitcast<short>(__y) << 5);
1681	auto __x4
1682	= __vector_bitcast<_Up>(__vector_bitcast<short>(__x) << 4);
1683	__x4 &= char(0xf0);
1684	__x = reinterpret_cast<_V>(_CommonImplX86::_S_blend_intrin(
1685	__to_intrin(__mask), __to_intrin(__x), __to_intrin(__x4)));
1686	__mask += __mask;
1687	auto __x2
1688	= __vector_bitcast<_Up>(__vector_bitcast<short>(__x) << 2);
1689	__x2 &= char(0xfc);
1690	__x = reinterpret_cast<_V>(_CommonImplX86::_S_blend_intrin(
1691	__to_intrin(__mask), __to_intrin(__x), __to_intrin(__x2)));
1692	__mask += __mask;
1693	auto __x1 = __x + __x;
1694	__x = reinterpret_cast<_V>(_CommonImplX86::_S_blend_intrin(
1695	__to_intrin(__mask), __to_intrin(__x), __to_intrin(__x1)));
1696	return __x
1697	& ((__y & char(0xf8)) == 0); // y > 7 nulls the result
1698	}
1699	else if constexpr (sizeof(__x) == 16)
1700	{
1701	auto __mask
1702	= __vector_bitcast<_UChar>(__vector_bitcast<short>(__y) << 5);
1703	auto __x4
1704	= __vector_bitcast<_Up>(__vector_bitcast<short>(__x) << 4);
1705	__x4 &= char(0xf0);
1706	__x = __vector_bitcast<_SChar>(__mask) < 0 ? __x4 : __x;
1707	__mask += __mask;
1708	auto __x2
1709	= __vector_bitcast<_Up>(__vector_bitcast<short>(__x) << 2);
1710	__x2 &= char(0xfc);
1711	__x = __vector_bitcast<_SChar>(__mask) < 0 ? __x2 : __x;
1712	__mask += __mask;
1713	auto __x1 = __x + __x;
1714	__x = __vector_bitcast<_SChar>(__mask) < 0 ? __x1 : __x;
1715	return __x
1716	& ((__y & char(0xf8)) == 0); // y > 7 nulls the result
1717	}
1718	else
1719	return __x << __y;
1720	}
1721	else if constexpr (sizeof(_Up) == 2)
1722	{
1723	if constexpr (sizeof __ix == 64 && __have_avx512bw)
1724	return __vector_bitcast<_Up>(_mm512_sllv_epi16(__ix, __iy));
1725	else if constexpr (sizeof __ix == 32 && __have_avx512bw_vl)
1726	return __vector_bitcast<_Up>(_mm256_sllv_epi16(__ix, __iy));
1727	else if constexpr (sizeof __ix == 32 && __have_avx512bw)
1728	return __vector_bitcast<_Up>(
1729	__lo256(_mm512_sllv_epi16(_mm512_castsi256_si512(__ix),
1730	_mm512_castsi256_si512(__iy))));
1731	else if constexpr (sizeof __ix == 32 && __have_avx2)
1732	{
1733	const auto __ux = __vector_bitcast<unsigned>(__x);
1734	const auto __uy = __vector_bitcast<unsigned>(__y);
1735	return __vector_bitcast<_Up>(_mm256_blend_epi16(
1736	__auto_bitcast(__ux << (__uy & 0x0000ffffu)),
1737	__auto_bitcast((__ux & 0xffff0000u) << (__uy >> 16)), 0xaa));
1738	}
1739	else if constexpr (sizeof __ix == 16 && __have_avx512bw_vl)
1740	return __intrin_bitcast<_V>(_mm_sllv_epi16(__ix, __iy));
1741	else if constexpr (sizeof __ix == 16 && __have_avx512bw)
1742	return __intrin_bitcast<_V>(
1743	__lo128(_mm512_sllv_epi16(_mm512_castsi128_si512(__ix),
1744	_mm512_castsi128_si512(__iy))));
1745	else if constexpr (sizeof __ix == 16 && __have_avx2)
1746	{
1747	const auto __ux = __vector_bitcast<unsigned>(__ix);
1748	const auto __uy = __vector_bitcast<unsigned>(__iy);
1749	return __intrin_bitcast<_V>(_mm_blend_epi16(
1750	__auto_bitcast(__ux << (__uy & 0x0000ffffu)),
1751	__auto_bitcast((__ux & 0xffff0000u) << (__uy >> 16)), 0xaa));
1752	}
1753	else if constexpr (sizeof __ix == 16)
1754	{
1755	using _Float4 = __vector_type_t<float, 4>;
1756	using _Int4 = __vector_type_t<int, 4>;
1757	using _UInt4 = __vector_type_t<unsigned, 4>;
1758	const _UInt4 __yu
1759	= reinterpret_cast<_UInt4>(__to_intrin(__y + (0x3f8 >> 3)));
1760	return __x
1761	* __intrin_bitcast<_V>(
1762	__vector_convert<_Int4>(_SimdWrapper<float, 4>(
1763	reinterpret_cast<_Float4>(__yu << 23)))
1764	\| (__vector_convert<_Int4>(_SimdWrapper<float, 4>(
1765	reinterpret_cast<_Float4>((__yu >> 16) << 23)))
1766	<< 16));
1767	}
1768	else
1769	__assert_unreachable<_Tp>();
1770	}
1771	else if constexpr (sizeof(_Up) == 4 && sizeof __ix == 16
1772	&& !__have_avx2)
1773	// latency is suboptimal, but throughput is at full speedup
1774	return __intrin_bitcast<_V>(
1775	__vector_bitcast<unsigned>(__ix)
1776	* __vector_convert<__vector_type16_t<int>>(
1777	_SimdWrapper<float, 4>(__vector_bitcast<float>(
1778	(__vector_bitcast<unsigned, 4>(__y) << 23) + 0x3f80'0000))));
1779	else if constexpr (sizeof(_Up) == 8 && sizeof __ix == 16
1780	&& !__have_avx2)
1781	{
1782	const auto __lo = _mm_sll_epi64(__ix, __iy);
1783	const auto __hi
1784	= _mm_sll_epi64(__ix, _mm_unpackhi_epi64(__iy, __iy));
1785	if constexpr (__have_sse4_1)
1786	return __vector_bitcast<_Up>(_mm_blend_epi16(__lo, __hi, 0xf0));
1787	else
1788	return __vector_bitcast<_Up>(
1789	_mm_move_sd(__vector_bitcast<double>(__hi),
1790	__vector_bitcast<double>(__lo)));
1791	}
1792	else
1793	return __x << __y;
1794	}
1795	#endif // _GLIBCXX_SIMD_NO_SHIFT_OPT
1796
1797	// }}}
1798	// _S_bit_shift_right {{{
1799	#ifndef _GLIBCXX_SIMD_NO_SHIFT_OPT
1800	template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
1801	inline _GLIBCXX_CONST static typename _TVT::type
1802	_S_bit_shift_right(_Tp __xx, int __y)
1803	{
1804	using _V = typename _TVT::type;
1805	using _Up = typename _TVT::value_type;
1806	_V __x = __xx;
1807	[[maybe_unused]] const auto __ix = __to_intrin(__x);
1808	if (__builtin_is_constant_evaluated())
1809	return __x >> __y;
1810	else if (__builtin_constant_p(__y)
1811	&& is_unsigned_v<
1812	_Up> && __y >= int(sizeof(_Up) * __CHAR_BIT__))
1813	return _V();
1814	else if constexpr (sizeof(_Up) == 1 && is_unsigned_v<_Up>) //{{{
1815	return __intrin_bitcast<_V>(__vector_bitcast<_UShort>(__ix) >> __y)
1816	& _Up(0xff >> __y);
1817	//}}}
1818	else if constexpr (sizeof(_Up) == 1 && is_signed_v<_Up>) //{{{
1819	return __intrin_bitcast<_V>(
1820	(__vector_bitcast<_UShort>(__vector_bitcast<short>(__ix)
1821	>> (__y + 8))
1822	<< 8)
1823	\| (__vector_bitcast<_UShort>(
1824	__vector_bitcast<short>(__vector_bitcast<_UShort>(__ix) << 8)
1825	>> __y)
1826	>> 8));
1827	//}}}
1828	// GCC optimizes sizeof == 2, 4, and unsigned 8 as expected
1829	else if constexpr (sizeof(_Up) == 8 && is_signed_v<_Up>) //{{{
1830	{
1831	if (__y > 32)
1832	return (__intrin_bitcast<_V>(__vector_bitcast<int>(__ix) >> 32)
1833	& _Up(0xffff'ffff'0000'0000ull))
1834	\| __vector_bitcast<_Up>(
1835	__vector_bitcast<int>(__vector_bitcast<_ULLong>(__ix)
1836	>> 32)
1837	>> (__y - 32));
1838	else
1839	return __intrin_bitcast<_V>(__vector_bitcast<_ULLong>(__ix)
1840	>> __y)
1841	\| __vector_bitcast<_Up>(
1842	__vector_bitcast<int>(__ix & -0x8000'0000'0000'0000ll)
1843	>> __y);
1844	}
1845	//}}}
1846	else
1847	return __x >> __y;
1848	}
1849
1850	template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
1851	inline _GLIBCXX_CONST static typename _TVT::type
1852	_S_bit_shift_right(_Tp __xx, typename _TVT::type __y)
1853	{
1854	using _V = typename _TVT::type;
1855	using _Up = typename _TVT::value_type;
1856	_V __x = __xx;
1857	[[maybe_unused]] const auto __ix = __to_intrin(__x);
1858	[[maybe_unused]] const auto __iy = __to_intrin(__y);
1859	if (__builtin_is_constant_evaluated()
1860	\|\| (__builtin_constant_p(__x) && __builtin_constant_p(__y)))
1861	return __x >> __y;
1862	else if constexpr (sizeof(_Up) == 1) //{{{
1863	{
1864	if constexpr (sizeof(__x) <= 8 && __have_avx512bw_vl)
1865	return __intrin_bitcast<_V>(_mm_cvtepi16_epi8(
1866	is_signed_v<_Up> ? _mm_srav_epi16(_mm_cvtepi8_epi16(__ix),
1867	_mm_cvtepi8_epi16(__iy))
1868	: _mm_srlv_epi16(_mm_cvtepu8_epi16(__ix),
1869	_mm_cvtepu8_epi16(__iy))));
1870	if constexpr (sizeof(__x) == 16 && __have_avx512bw_vl)
1871	return __intrin_bitcast<_V>(_mm256_cvtepi16_epi8(
1872	is_signed_v<_Up>
1873	? _mm256_srav_epi16(_mm256_cvtepi8_epi16(__ix),
1874	_mm256_cvtepi8_epi16(__iy))
1875	: _mm256_srlv_epi16(_mm256_cvtepu8_epi16(__ix),
1876	_mm256_cvtepu8_epi16(__iy))));
1877	else if constexpr (sizeof(__x) == 32 && __have_avx512bw)
1878	return __vector_bitcast<_Up>(_mm512_cvtepi16_epi8(
1879	is_signed_v<_Up>
1880	? _mm512_srav_epi16(_mm512_cvtepi8_epi16(__ix),
1881	_mm512_cvtepi8_epi16(__iy))
1882	: _mm512_srlv_epi16(_mm512_cvtepu8_epi16(__ix),
1883	_mm512_cvtepu8_epi16(__iy))));
1884	else if constexpr (sizeof(__x) == 64 && is_signed_v<_Up>)
1885	return __vector_bitcast<_Up>(_mm512_mask_mov_epi8(
1886	_mm512_srav_epi16(__ix, _mm512_srli_epi16(__iy, 8)),
1887	0x5555'5555'5555'5555ull,
1888	_mm512_srav_epi16(
1889	_mm512_slli_epi16(__ix, 8),
1890	_mm512_maskz_add_epi8(0x5555'5555'5555'5555ull, __iy,
1891	_mm512_set1_epi16(8)))));
1892	else if constexpr (sizeof(__x) == 64 && is_unsigned_v<_Up>)
1893	return __vector_bitcast<_Up>(_mm512_mask_mov_epi8(
1894	_mm512_srlv_epi16(__ix, _mm512_srli_epi16(__iy, 8)),
1895	0x5555'5555'5555'5555ull,
1896	_mm512_srlv_epi16(
1897	_mm512_maskz_mov_epi8(0x5555'5555'5555'5555ull, __ix),
1898	_mm512_maskz_mov_epi8(0x5555'5555'5555'5555ull, __iy))));
1899	/* This has better throughput but higher latency than the impl below
1900	else if constexpr (__have_avx2 && sizeof(__x) == 16 &&
1901	is_unsigned_v<_Up>)
1902	{
1903	const auto __shorts = __to_intrin(_S_bit_shift_right(
1904	__vector_bitcast<_UShort>(_mm256_cvtepu8_epi16(__ix)),
1905	__vector_bitcast<_UShort>(_mm256_cvtepu8_epi16(__iy))));
1906	return __vector_bitcast<_Up>(
1907	_mm_packus_epi16(__lo128(__shorts), __hi128(__shorts)));
1908	}
1909	*/
1910	else if constexpr (__have_avx2 && sizeof(__x) > 8)
1911	// the following uses vpsr[al]vd, which requires AVX2
1912	if constexpr (is_signed_v<_Up>)
1913	{
1914	const auto r3 = __vector_bitcast<_UInt>(
1915	(__vector_bitcast<int>(__x)
1916	>> (__vector_bitcast<_UInt>(__y) >> 24)))
1917	& 0xff000000u;
1918	const auto r2
1919	= __vector_bitcast<_UInt>(
1920	((__vector_bitcast<int>(__x) << 8)
1921	>> ((__vector_bitcast<_UInt>(__y) << 8) >> 24)))
1922	& 0xff000000u;
1923	const auto r1
1924	= __vector_bitcast<_UInt>(
1925	((__vector_bitcast<int>(__x) << 16)
1926	>> ((__vector_bitcast<_UInt>(__y) << 16) >> 24)))
1927	& 0xff000000u;
1928	const auto r0 = __vector_bitcast<_UInt>(
1929	(__vector_bitcast<int>(__x) << 24)
1930	>> ((__vector_bitcast<_UInt>(__y) << 24) >> 24));
1931	return __vector_bitcast<_Up>(r3 \| (r2 >> 8) \| (r1 >> 16)
1932	\| (r0 >> 24));
1933	}
1934	else
1935	{
1936	const auto r3 = (__vector_bitcast<_UInt>(__x)
1937	>> (__vector_bitcast<_UInt>(__y) >> 24))
1938	& 0xff000000u;
1939	const auto r2
1940	= ((__vector_bitcast<_UInt>(__x) << 8)
1941	>> ((__vector_bitcast<_UInt>(__y) << 8) >> 24))
1942	& 0xff000000u;
1943	const auto r1
1944	= ((__vector_bitcast<_UInt>(__x) << 16)
1945	>> ((__vector_bitcast<_UInt>(__y) << 16) >> 24))
1946	& 0xff000000u;
1947	const auto r0
1948	= (__vector_bitcast<_UInt>(__x) << 24)
1949	>> ((__vector_bitcast<_UInt>(__y) << 24) >> 24);
1950	return __vector_bitcast<_Up>(r3 \| (r2 >> 8) \| (r1 >> 16)
1951	\| (r0 >> 24));
1952	}
1953	else if constexpr (__have_sse4_1
1954	&& is_unsigned_v<_Up> && sizeof(__x) > 2)
1955	{
1956	auto __x128 = __vector_bitcast<_Up>(__ix);
1957	auto __mask
1958	= __vector_bitcast<_Up>(__vector_bitcast<_UShort>(__iy) << 5);
1959	auto __x4 = __vector_bitcast<_Up>(
1960	(__vector_bitcast<_UShort>(__x128) >> 4) & _UShort(0xff0f));
1961	__x128 = __vector_bitcast<_Up>(_CommonImplX86::_S_blend_intrin(
1962	__to_intrin(__mask), __to_intrin(__x128), __to_intrin(__x4)));
1963	__mask += __mask;
1964	auto __x2 = __vector_bitcast<_Up>(
1965	(__vector_bitcast<_UShort>(__x128) >> 2) & _UShort(0xff3f));
1966	__x128 = __vector_bitcast<_Up>(_CommonImplX86::_S_blend_intrin(
1967	__to_intrin(__mask), __to_intrin(__x128), __to_intrin(__x2)));
1968	__mask += __mask;
1969	auto __x1 = __vector_bitcast<_Up>(
1970	(__vector_bitcast<_UShort>(__x128) >> 1) & _UShort(0xff7f));
1971	__x128 = __vector_bitcast<_Up>(_CommonImplX86::_S_blend_intrin(
1972	__to_intrin(__mask), __to_intrin(__x128), __to_intrin(__x1)));
1973	return __intrin_bitcast<_V>(
1974	__x128
1975	& ((__vector_bitcast<_Up>(__iy) & char(0xf8))
1976	== 0)); // y > 7 nulls the result
1977	}
1978	else if constexpr (__have_sse4_1
1979	&& is_signed_v<_Up> && sizeof(__x) > 2)
1980	{
1981	auto __mask = __vector_bitcast<_UChar>(
1982	__vector_bitcast<_UShort>(__iy) << 5);
1983	auto __maskl = [&]() {
1984	return __to_intrin(__vector_bitcast<_UShort>(__mask) << 8);
1985	};
1986	auto __xh = __vector_bitcast<short>(__ix);
1987	auto __xl = __vector_bitcast<short>(__ix) << 8;
1988	auto __xh4 = __xh >> 4;
1989	auto __xl4 = __xl >> 4;
1990	__xh = __vector_bitcast<short>(_CommonImplX86::_S_blend_intrin(
1991	__to_intrin(__mask), __to_intrin(__xh), __to_intrin(__xh4)));
1992	__xl = __vector_bitcast<short>(
1993	_CommonImplX86::_S_blend_intrin(__maskl(), __to_intrin(__xl),
1994	__to_intrin(__xl4)));
1995	__mask += __mask;
1996	auto __xh2 = __xh >> 2;
1997	auto __xl2 = __xl >> 2;
1998	__xh = __vector_bitcast<short>(_CommonImplX86::_S_blend_intrin(
1999	__to_intrin(__mask), __to_intrin(__xh), __to_intrin(__xh2)));
2000	__xl = __vector_bitcast<short>(
2001	_CommonImplX86::_S_blend_intrin(__maskl(), __to_intrin(__xl),
2002	__to_intrin(__xl2)));
2003	__mask += __mask;
2004	auto __xh1 = __xh >> 1;
2005	auto __xl1 = __xl >> 1;
2006	__xh = __vector_bitcast<short>(_CommonImplX86::_S_blend_intrin(
2007	__to_intrin(__mask), __to_intrin(__xh), __to_intrin(__xh1)));
2008	__xl = __vector_bitcast<short>(
2009	_CommonImplX86::_S_blend_intrin(__maskl(), __to_intrin(__xl),
2010	__to_intrin(__xl1)));
2011	return __intrin_bitcast<_V>(
2012	(__vector_bitcast<_Up>((__xh & short(0xff00)))
2013	\| __vector_bitcast<_Up>(__vector_bitcast<_UShort>(__xl)
2014	>> 8))
2015	& ((__vector_bitcast<_Up>(__iy) & char(0xf8))
2016	== 0)); // y > 7 nulls the result
2017	}
2018	else if constexpr (is_unsigned_v<_Up> && sizeof(__x) > 2) // SSE2
2019	{
2020	auto __mask
2021	= __vector_bitcast<_Up>(__vector_bitcast<_UShort>(__y) << 5);
2022	auto __x4 = __vector_bitcast<_Up>(
2023	(__vector_bitcast<_UShort>(__x) >> 4) & _UShort(0xff0f));
2024	__x = __mask > 0x7f ? __x4 : __x;
2025	__mask += __mask;
2026	auto __x2 = __vector_bitcast<_Up>(
2027	(__vector_bitcast<_UShort>(__x) >> 2) & _UShort(0xff3f));
2028	__x = __mask > 0x7f ? __x2 : __x;
2029	__mask += __mask;
2030	auto __x1 = __vector_bitcast<_Up>(
2031	(__vector_bitcast<_UShort>(__x) >> 1) & _UShort(0xff7f));
2032	__x = __mask > 0x7f ? __x1 : __x;
2033	return __x
2034	& ((__y & char(0xf8)) == 0); // y > 7 nulls the result
2035	}
2036	else if constexpr (sizeof(__x) > 2) // signed SSE2
2037	{
2038	static_assert(is_signed_v<_Up>);
2039	auto __maskh = __vector_bitcast<_UShort>(__y) << 5;
2040	auto __maskl = __vector_bitcast<_UShort>(__y) << (5 + 8);
2041	auto __xh = __vector_bitcast<short>(__x);
2042	auto __xl = __vector_bitcast<short>(__x) << 8;
2043	auto __xh4 = __xh >> 4;
2044	auto __xl4 = __xl >> 4;
2045	__xh = __maskh > 0x7fff ? __xh4 : __xh;
2046	__xl = __maskl > 0x7fff ? __xl4 : __xl;
2047	__maskh += __maskh;
2048	__maskl += __maskl;
2049	auto __xh2 = __xh >> 2;
2050	auto __xl2 = __xl >> 2;
2051	__xh = __maskh > 0x7fff ? __xh2 : __xh;
2052	__xl = __maskl > 0x7fff ? __xl2 : __xl;
2053	__maskh += __maskh;
2054	__maskl += __maskl;
2055	auto __xh1 = __xh >> 1;
2056	auto __xl1 = __xl >> 1;
2057	__xh = __maskh > 0x7fff ? __xh1 : __xh;
2058	__xl = __maskl > 0x7fff ? __xl1 : __xl;
2059	__x = __vector_bitcast<_Up>((__xh & short(0xff00)))
2060	\| __vector_bitcast<_Up>(__vector_bitcast<_UShort>(__xl)
2061	>> 8);
2062	return __x
2063	& ((__y & char(0xf8)) == 0); // y > 7 nulls the result
2064	}
2065	else
2066	return __x >> __y;
2067	} //}}}
2068	else if constexpr (sizeof(_Up) == 2 && sizeof(__x) >= 4) //{{{
2069	{
2070	[[maybe_unused]] auto __blend_0xaa = [](auto __a, auto __b) {
2071	if constexpr (sizeof(__a) == 16)
2072	return _mm_blend_epi16(__to_intrin(__a), __to_intrin(__b),
2073	0xaa);
2074	else if constexpr (sizeof(__a) == 32)
2075	return _mm256_blend_epi16(__to_intrin(__a), __to_intrin(__b),
2076	0xaa);
2077	else if constexpr (sizeof(__a) == 64)
2078	return _mm512_mask_blend_epi16(0xaaaa'aaaaU, __to_intrin(__a),
2079	__to_intrin(__b));
2080	else
2081	__assert_unreachable<decltype(__a)>();
2082	};
2083	if constexpr (__have_avx512bw_vl && sizeof(_Tp) <= 16)
2084	return __intrin_bitcast<_V>(is_signed_v<_Up>
2085	? _mm_srav_epi16(__ix, __iy)
2086	: _mm_srlv_epi16(__ix, __iy));
2087	else if constexpr (__have_avx512bw_vl && sizeof(_Tp) == 32)
2088	return __vector_bitcast<_Up>(is_signed_v<_Up>
2089	? _mm256_srav_epi16(__ix, __iy)
2090	: _mm256_srlv_epi16(__ix, __iy));
2091	else if constexpr (__have_avx512bw && sizeof(_Tp) == 64)
2092	return __vector_bitcast<_Up>(is_signed_v<_Up>
2093	? _mm512_srav_epi16(__ix, __iy)
2094	: _mm512_srlv_epi16(__ix, __iy));
2095	else if constexpr (__have_avx2 && is_signed_v<_Up>)
2096	return __intrin_bitcast<_V>(
2097	__blend_0xaa(((__vector_bitcast<int>(__ix) << 16)
2098	>> (__vector_bitcast<int>(__iy) & 0xffffu))
2099	>> 16,
2100	__vector_bitcast<int>(__ix)
2101	>> (__vector_bitcast<int>(__iy) >> 16)));
2102	else if constexpr (__have_avx2 && is_unsigned_v<_Up>)
2103	return __intrin_bitcast<_V>(
2104	__blend_0xaa((__vector_bitcast<_UInt>(__ix) & 0xffffu)
2105	>> (__vector_bitcast<_UInt>(__iy) & 0xffffu),
2106	__vector_bitcast<_UInt>(__ix)
2107	>> (__vector_bitcast<_UInt>(__iy) >> 16)));
2108	else if constexpr (__have_sse4_1)
2109	{
2110	auto __mask = __vector_bitcast<_UShort>(__iy);
2111	auto __x128 = __vector_bitcast<_Up>(__ix);
2112	//__mask *= 0x0808;
2113	__mask = (__mask << 3) \| (__mask << 11);
2114	// do __x128 = 0 where __y[4] is set
2115	__x128 = __vector_bitcast<_Up>(
2116	_mm_blendv_epi8(__to_intrin(__x128), __m128i(),
2117	__to_intrin(__mask)));
2118	// do __x128 =>> 8 where __y[3] is set
2119	__x128 = __vector_bitcast<_Up>(
2120	_mm_blendv_epi8(__to_intrin(__x128), __to_intrin(__x128 >> 8),
2121	__to_intrin(__mask += __mask)));
2122	// do __x128 =>> 4 where __y[2] is set
2123	__x128 = __vector_bitcast<_Up>(
2124	_mm_blendv_epi8(__to_intrin(__x128), __to_intrin(__x128 >> 4),
2125	__to_intrin(__mask += __mask)));
2126	// do __x128 =>> 2 where __y[1] is set
2127	__x128 = __vector_bitcast<_Up>(
2128	_mm_blendv_epi8(__to_intrin(__x128), __to_intrin(__x128 >> 2),
2129	__to_intrin(__mask += __mask)));
2130	// do __x128 =>> 1 where __y[0] is set
2131	return __intrin_bitcast<_V>(
2132	_mm_blendv_epi8(__to_intrin(__x128), __to_intrin(__x128 >> 1),
2133	__to_intrin(__mask + __mask)));
2134	}
2135	else
2136	{
2137	auto __k = __vector_bitcast<_UShort>(__iy) << 11;
2138	auto __x128 = __vector_bitcast<_Up>(__ix);
2139	auto __mask = [](__vector_type16_t<_UShort> __kk) {
2140	return __vector_bitcast<short>(__kk) < 0;
2141	};
2142	// do __x128 = 0 where __y[4] is set
2143	__x128 = __mask(__k) ? decltype(__x128)() : __x128;
2144	// do __x128 =>> 8 where __y[3] is set
2145	__x128 = __mask(__k += __k) ? __x128 >> 8 : __x128;
2146	// do __x128 =>> 4 where __y[2] is set
2147	__x128 = __mask(__k += __k) ? __x128 >> 4 : __x128;
2148	// do __x128 =>> 2 where __y[1] is set
2149	__x128 = __mask(__k += __k) ? __x128 >> 2 : __x128;
2150	// do __x128 =>> 1 where __y[0] is set
2151	return __intrin_bitcast<_V>(__mask(__k + __k) ? __x128 >> 1
2152	: __x128);
2153	}
2154	} //}}}
2155	else if constexpr (sizeof(_Up) == 4 && !__have_avx2) //{{{
2156	{
2157	if constexpr (is_unsigned_v<_Up>)
2158	{
2159	// x >> y == x * 2^-y == (x * 2^(31-y)) >> 31
2160	const __m128 __factor_f = reinterpret_cast<__m128>(
2161	0x4f00'0000u - (__vector_bitcast<unsigned, 4>(__y) << 23));
2162	const __m128i __factor
2163	= __builtin_constant_p(__factor_f)
2164	? __to_intrin(
2165	__make_vector<unsigned>(__factor_f[0], __factor_f[1],
2166	__factor_f[2], __factor_f[3]))
2167	: _mm_cvttps_epi32(__factor_f);
2168	const auto __r02
2169	= _mm_srli_epi64(_mm_mul_epu32(__ix, __factor), 31);
2170	const auto __r13 = _mm_mul_epu32(_mm_srli_si128(__ix, 4),
2171	_mm_srli_si128(__factor, 4));
2172	if constexpr (__have_sse4_1)
2173	return __intrin_bitcast<_V>(
2174	_mm_blend_epi16(_mm_slli_epi64(__r13, 1), __r02, 0x33));
2175	else
2176	return __intrin_bitcast<_V>(
2177	__r02 \| _mm_slli_si128(_mm_srli_epi64(__r13, 31), 4));
2178	}
2179	else
2180	{
2181	auto __shift = [](auto __a, auto __b) {
2182	if constexpr (is_signed_v<_Up>)
2183	return _mm_sra_epi32(__a, __b);
2184	else
2185	return _mm_srl_epi32(__a, __b);
2186	};
2187	const auto __r0
2188	= __shift(__ix, _mm_unpacklo_epi32(__iy, __m128i()));
2189	const auto __r1 = __shift(__ix, _mm_srli_epi64(__iy, 32));
2190	const auto __r2
2191	= __shift(__ix, _mm_unpackhi_epi32(__iy, __m128i()));
2192	const auto __r3 = __shift(__ix, _mm_srli_si128(__iy, 12));
2193	if constexpr (__have_sse4_1)
2194	return __intrin_bitcast<_V>(
2195	_mm_blend_epi16(_mm_blend_epi16(__r1, __r0, 0x3),
2196	_mm_blend_epi16(__r3, __r2, 0x30), 0xf0));
2197	else
2198	return __intrin_bitcast<_V>(_mm_unpacklo_epi64(
2199	_mm_unpacklo_epi32(__r0, _mm_srli_si128(__r1, 4)),
2200	_mm_unpackhi_epi32(__r2, _mm_srli_si128(__r3, 4))));
2201	}
2202	} //}}}
2203	else
2204	return __x >> __y;
2205	}
2206	#endif // _GLIBCXX_SIMD_NO_SHIFT_OPT
2207
2208	// }}}
2209	// compares {{{
2210	// _S_equal_to {{{
2211	template <typename _Tp, size_t _Np>
2212	_GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
2213	_S_equal_to(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
2214	{
2215	if constexpr (__is_avx512_abi<_Abi>()) // {{{
2216	{
2217	if (__builtin_is_constant_evaluated()
2218	\|\| (__x._M_is_constprop() && __y._M_is_constprop()))
2219	return _MaskImpl::_S_to_bits(
2220	__as_wrapper<_Np>(__x._M_data == __y._M_data));
2221
2222	constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
2223	[[maybe_unused]] const auto __xi = __to_intrin(__x);
2224	[[maybe_unused]] const auto __yi = __to_intrin(__y);
2225	if constexpr (is_floating_point_v<_Tp>)
2226	{
2227	if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
2228	return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_EQ_OQ);
2229	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
2230	return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_EQ_OQ);
2231	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
2232	return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_EQ_OQ);
2233	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
2234	return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_EQ_OQ);
2235	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
2236	return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_EQ_OQ);
2237	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
2238	return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_EQ_OQ);
2239	else
2240	__assert_unreachable<_Tp>();
2241	}
2242	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
2243	return _mm512_mask_cmpeq_epi64_mask(__k1, __xi, __yi);
2244	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
2245	return _mm512_mask_cmpeq_epi32_mask(__k1, __xi, __yi);
2246	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 2)
2247	return _mm512_mask_cmpeq_epi16_mask(__k1, __xi, __yi);
2248	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 1)
2249	return _mm512_mask_cmpeq_epi8_mask(__k1, __xi, __yi);
2250	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
2251	return _mm256_mask_cmpeq_epi64_mask(__k1, __xi, __yi);
2252	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
2253	return _mm256_mask_cmpeq_epi32_mask(__k1, __xi, __yi);
2254	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 2)
2255	return _mm256_mask_cmpeq_epi16_mask(__k1, __xi, __yi);
2256	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 1)
2257	return _mm256_mask_cmpeq_epi8_mask(__k1, __xi, __yi);
2258	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
2259	return _mm_mask_cmpeq_epi64_mask(__k1, __xi, __yi);
2260	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
2261	return _mm_mask_cmpeq_epi32_mask(__k1, __xi, __yi);
2262	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 2)
2263	return _mm_mask_cmpeq_epi16_mask(__k1, __xi, __yi);
2264	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 1)
2265	return _mm_mask_cmpeq_epi8_mask(__k1, __xi, __yi);
2266	else
2267	__assert_unreachable<_Tp>();
2268	} // }}}
2269	else if (__builtin_is_constant_evaluated())
2270	return _Base::_S_equal_to(__x, __y);
2271	else if constexpr (sizeof(__x) == 8) // {{{
2272	{
2273	const auto __r128 = __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__x)
2274	== __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__y);
2275	_MaskMember<_Tp> __r64;
2276	__builtin_memcpy(&__r64._M_data, &__r128, sizeof(__r64));
2277	return __r64;
2278	} // }}}
2279	else
2280	return _Base::_S_equal_to(__x, __y);
2281	}
2282
2283	// }}}
2284	// _S_not_equal_to {{{
2285	template <typename _Tp, size_t _Np>
2286	_GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
2287	_S_not_equal_to(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
2288	{
2289	if constexpr (__is_avx512_abi<_Abi>()) // {{{
2290	{
2291	if (__builtin_is_constant_evaluated()
2292	\|\| (__x._M_is_constprop() && __y._M_is_constprop()))
2293	return _MaskImpl::_S_to_bits(
2294	__as_wrapper<_Np>(__x._M_data != __y._M_data));
2295
2296	constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
2297	[[maybe_unused]] const auto __xi = __to_intrin(__x);
2298	[[maybe_unused]] const auto __yi = __to_intrin(__y);
2299	if constexpr (is_floating_point_v<_Tp>)
2300	{
2301	if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
2302	return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_NEQ_UQ);
2303	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
2304	return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_NEQ_UQ);
2305	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
2306	return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_NEQ_UQ);
2307	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
2308	return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_NEQ_UQ);
2309	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
2310	return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_NEQ_UQ);
2311	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
2312	return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_NEQ_UQ);
2313	else
2314	__assert_unreachable<_Tp>();
2315	}
2316	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
2317	return ~_mm512_mask_cmpeq_epi64_mask(__k1, __xi, __yi);
2318	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
2319	return ~_mm512_mask_cmpeq_epi32_mask(__k1, __xi, __yi);
2320	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 2)
2321	return ~_mm512_mask_cmpeq_epi16_mask(__k1, __xi, __yi);
2322	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 1)
2323	return ~_mm512_mask_cmpeq_epi8_mask(__k1, __xi, __yi);
2324	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
2325	return ~_mm256_mask_cmpeq_epi64_mask(__k1, __xi, __yi);
2326	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
2327	return ~_mm256_mask_cmpeq_epi32_mask(__k1, __xi, __yi);
2328	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 2)
2329	return ~_mm256_mask_cmpeq_epi16_mask(__k1, __xi, __yi);
2330	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 1)
2331	return ~_mm256_mask_cmpeq_epi8_mask(__k1, __xi, __yi);
2332	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
2333	return ~_mm_mask_cmpeq_epi64_mask(__k1, __xi, __yi);
2334	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
2335	return ~_mm_mask_cmpeq_epi32_mask(__k1, __xi, __yi);
2336	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 2)
2337	return ~_mm_mask_cmpeq_epi16_mask(__k1, __xi, __yi);
2338	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 1)
2339	return ~_mm_mask_cmpeq_epi8_mask(__k1, __xi, __yi);
2340	else
2341	__assert_unreachable<_Tp>();
2342	} // }}}
2343	else if constexpr (!__builtin_is_constant_evaluated() // {{{
2344	&& sizeof(__x) == 8)
2345	{
2346	const auto __r128 = __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__x)
2347	!= __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__y);
2348	_MaskMember<_Tp> __r64;
2349	__builtin_memcpy(&__r64._M_data, &__r128, sizeof(__r64));
2350	return __r64;
2351	} // }}}
2352	else
2353	return _Base::_S_not_equal_to(__x, __y);
2354	}
2355
2356	// }}}
2357	// _S_less {{{
2358	template <typename _Tp, size_t _Np>
2359	_GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
2360	_S_less(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
2361	{
2362	if constexpr (__is_avx512_abi<_Abi>()) // {{{
2363	{
2364	if (__builtin_is_constant_evaluated()
2365	\|\| (__x._M_is_constprop() && __y._M_is_constprop()))
2366	return _MaskImpl::_S_to_bits(
2367	__as_wrapper<_Np>(__x._M_data < __y._M_data));
2368
2369	constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
2370	[[maybe_unused]] const auto __xi = __to_intrin(__x);
2371	[[maybe_unused]] const auto __yi = __to_intrin(__y);
2372	if constexpr (sizeof(__xi) == 64)
2373	{
2374	if constexpr (is_same_v<_Tp, float>)
2375	return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LT_OS);
2376	else if constexpr (is_same_v<_Tp, double>)
2377	return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LT_OS);
2378	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 1)
2379	return _mm512_mask_cmplt_epi8_mask(__k1, __xi, __yi);
2380	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 2)
2381	return _mm512_mask_cmplt_epi16_mask(__k1, __xi, __yi);
2382	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 4)
2383	return _mm512_mask_cmplt_epi32_mask(__k1, __xi, __yi);
2384	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 8)
2385	return _mm512_mask_cmplt_epi64_mask(__k1, __xi, __yi);
2386	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 1)
2387	return _mm512_mask_cmplt_epu8_mask(__k1, __xi, __yi);
2388	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 2)
2389	return _mm512_mask_cmplt_epu16_mask(__k1, __xi, __yi);
2390	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 4)
2391	return _mm512_mask_cmplt_epu32_mask(__k1, __xi, __yi);
2392	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 8)
2393	return _mm512_mask_cmplt_epu64_mask(__k1, __xi, __yi);
2394	else
2395	__assert_unreachable<_Tp>();
2396	}
2397	else if constexpr (sizeof(__xi) == 32)
2398	{
2399	if constexpr (is_same_v<_Tp, float>)
2400	return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LT_OS);
2401	else if constexpr (is_same_v<_Tp, double>)
2402	return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LT_OS);
2403	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 1)
2404	return _mm256_mask_cmplt_epi8_mask(__k1, __xi, __yi);
2405	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 2)
2406	return _mm256_mask_cmplt_epi16_mask(__k1, __xi, __yi);
2407	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 4)
2408	return _mm256_mask_cmplt_epi32_mask(__k1, __xi, __yi);
2409	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 8)
2410	return _mm256_mask_cmplt_epi64_mask(__k1, __xi, __yi);
2411	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 1)
2412	return _mm256_mask_cmplt_epu8_mask(__k1, __xi, __yi);
2413	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 2)
2414	return _mm256_mask_cmplt_epu16_mask(__k1, __xi, __yi);
2415	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 4)
2416	return _mm256_mask_cmplt_epu32_mask(__k1, __xi, __yi);
2417	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 8)
2418	return _mm256_mask_cmplt_epu64_mask(__k1, __xi, __yi);
2419	else
2420	__assert_unreachable<_Tp>();
2421	}
2422	else if constexpr (sizeof(__xi) == 16)
2423	{
2424	if constexpr (is_same_v<_Tp, float>)
2425	return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LT_OS);
2426	else if constexpr (is_same_v<_Tp, double>)
2427	return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LT_OS);
2428	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 1)
2429	return _mm_mask_cmplt_epi8_mask(__k1, __xi, __yi);
2430	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 2)
2431	return _mm_mask_cmplt_epi16_mask(__k1, __xi, __yi);
2432	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 4)
2433	return _mm_mask_cmplt_epi32_mask(__k1, __xi, __yi);
2434	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 8)
2435	return _mm_mask_cmplt_epi64_mask(__k1, __xi, __yi);
2436	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 1)
2437	return _mm_mask_cmplt_epu8_mask(__k1, __xi, __yi);
2438	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 2)
2439	return _mm_mask_cmplt_epu16_mask(__k1, __xi, __yi);
2440	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 4)
2441	return _mm_mask_cmplt_epu32_mask(__k1, __xi, __yi);
2442	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 8)
2443	return _mm_mask_cmplt_epu64_mask(__k1, __xi, __yi);
2444	else
2445	__assert_unreachable<_Tp>();
2446	}
2447	else
2448	__assert_unreachable<_Tp>();
2449	} // }}}
2450	else if constexpr (!__builtin_is_constant_evaluated() // {{{
2451	&& sizeof(__x) == 8)
2452	{
2453	const auto __r128 = __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__x)
2454	< __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__y);
2455	_MaskMember<_Tp> __r64;
2456	__builtin_memcpy(&__r64._M_data, &__r128, sizeof(__r64));
2457	return __r64;
2458	} // }}}
2459	else
2460	return _Base::_S_less(__x, __y);
2461	}
2462
2463	// }}}
2464	// _S_less_equal {{{
2465	template <typename _Tp, size_t _Np>
2466	_GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
2467	_S_less_equal(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
2468	{
2469	if constexpr (__is_avx512_abi<_Abi>()) // {{{
2470	{
2471	if (__builtin_is_constant_evaluated()
2472	\|\| (__x._M_is_constprop() && __y._M_is_constprop()))
2473	return _MaskImpl::_S_to_bits(
2474	__as_wrapper<_Np>(__x._M_data <= __y._M_data));
2475
2476	constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
2477	[[maybe_unused]] const auto __xi = __to_intrin(__x);
2478	[[maybe_unused]] const auto __yi = __to_intrin(__y);
2479	if constexpr (sizeof(__xi) == 64)
2480	{
2481	if constexpr (is_same_v<_Tp, float>)
2482	return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LE_OS);
2483	else if constexpr (is_same_v<_Tp, double>)
2484	return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LE_OS);
2485	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 1)
2486	return _mm512_mask_cmple_epi8_mask(__k1, __xi, __yi);
2487	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 2)
2488	return _mm512_mask_cmple_epi16_mask(__k1, __xi, __yi);
2489	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 4)
2490	return _mm512_mask_cmple_epi32_mask(__k1, __xi, __yi);
2491	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 8)
2492	return _mm512_mask_cmple_epi64_mask(__k1, __xi, __yi);
2493	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 1)
2494	return _mm512_mask_cmple_epu8_mask(__k1, __xi, __yi);
2495	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 2)
2496	return _mm512_mask_cmple_epu16_mask(__k1, __xi, __yi);
2497	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 4)
2498	return _mm512_mask_cmple_epu32_mask(__k1, __xi, __yi);
2499	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 8)
2500	return _mm512_mask_cmple_epu64_mask(__k1, __xi, __yi);
2501	else
2502	__assert_unreachable<_Tp>();
2503	}
2504	else if constexpr (sizeof(__xi) == 32)
2505	{
2506	if constexpr (is_same_v<_Tp, float>)
2507	return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LE_OS);
2508	else if constexpr (is_same_v<_Tp, double>)
2509	return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LE_OS);
2510	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 1)
2511	return _mm256_mask_cmple_epi8_mask(__k1, __xi, __yi);
2512	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 2)
2513	return _mm256_mask_cmple_epi16_mask(__k1, __xi, __yi);
2514	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 4)
2515	return _mm256_mask_cmple_epi32_mask(__k1, __xi, __yi);
2516	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 8)
2517	return _mm256_mask_cmple_epi64_mask(__k1, __xi, __yi);
2518	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 1)
2519	return _mm256_mask_cmple_epu8_mask(__k1, __xi, __yi);
2520	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 2)
2521	return _mm256_mask_cmple_epu16_mask(__k1, __xi, __yi);
2522	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 4)
2523	return _mm256_mask_cmple_epu32_mask(__k1, __xi, __yi);
2524	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 8)
2525	return _mm256_mask_cmple_epu64_mask(__k1, __xi, __yi);
2526	else
2527	__assert_unreachable<_Tp>();
2528	}
2529	else if constexpr (sizeof(__xi) == 16)
2530	{
2531	if constexpr (is_same_v<_Tp, float>)
2532	return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LE_OS);
2533	else if constexpr (is_same_v<_Tp, double>)
2534	return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LE_OS);
2535	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 1)
2536	return _mm_mask_cmple_epi8_mask(__k1, __xi, __yi);
2537	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 2)
2538	return _mm_mask_cmple_epi16_mask(__k1, __xi, __yi);
2539	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 4)
2540	return _mm_mask_cmple_epi32_mask(__k1, __xi, __yi);
2541	else if constexpr (is_signed_v<_Tp> && sizeof(_Tp) == 8)
2542	return _mm_mask_cmple_epi64_mask(__k1, __xi, __yi);
2543	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 1)
2544	return _mm_mask_cmple_epu8_mask(__k1, __xi, __yi);
2545	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 2)
2546	return _mm_mask_cmple_epu16_mask(__k1, __xi, __yi);
2547	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 4)
2548	return _mm_mask_cmple_epu32_mask(__k1, __xi, __yi);
2549	else if constexpr (is_unsigned_v<_Tp> && sizeof(_Tp) == 8)
2550	return _mm_mask_cmple_epu64_mask(__k1, __xi, __yi);
2551	else
2552	__assert_unreachable<_Tp>();
2553	}
2554	else
2555	__assert_unreachable<_Tp>();
2556	} // }}}
2557	else if constexpr (!__builtin_is_constant_evaluated() // {{{
2558	&& sizeof(__x) == 8)
2559	{
2560	const auto __r128 = __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__x)
2561	<= __vector_bitcast<_Tp, 16 / sizeof(_Tp)>(__y);
2562	_MaskMember<_Tp> __r64;
2563	__builtin_memcpy(&__r64._M_data, &__r128, sizeof(__r64));
2564	return __r64;
2565	} // }}}
2566	else
2567	return _Base::_S_less_equal(__x, __y);
2568	}
2569
2570	// }}} }}}
2571	// negation {{{
2572	template <typename _Tp, size_t _Np>
2573	_GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
2574	_S_negate(_SimdWrapper<_Tp, _Np> __x) noexcept
2575	{
2576	if constexpr (__is_avx512_abi<_Abi>())
2577	return _S_equal_to(__x, _SimdWrapper<_Tp, _Np>());
2578	else
2579	return _Base::_S_negate(__x);
2580	}
2581
2582	// }}}
2583	// math {{{
2584	using _Base::_S_abs;
2585
2586	// _S_sqrt {{{
2587	template <typename _Tp, size_t _Np>
2588	_GLIBCXX_SIMD_INTRINSIC static _SimdWrapper<_Tp, _Np>
2589	_S_sqrt(_SimdWrapper<_Tp, _Np> __x)
2590	{
2591	if constexpr (__is_sse_ps<_Tp, _Np>())
2592	return __auto_bitcast(_mm_sqrt_ps(__to_intrin(__x)));
2593	else if constexpr (__is_sse_pd<_Tp, _Np>())
2594	return _mm_sqrt_pd(__x);
2595	else if constexpr (__is_avx_ps<_Tp, _Np>())
2596	return _mm256_sqrt_ps(__x);
2597	else if constexpr (__is_avx_pd<_Tp, _Np>())
2598	return _mm256_sqrt_pd(__x);
2599	else if constexpr (__is_avx512_ps<_Tp, _Np>())
2600	return _mm512_sqrt_ps(__x);
2601	else if constexpr (__is_avx512_pd<_Tp, _Np>())
2602	return _mm512_sqrt_pd(__x);
2603	else
2604	__assert_unreachable<_Tp>();
2605	}
2606
2607	// }}}
2608	// _S_ldexp {{{
2609	template <typename _Tp, size_t _Np>
2610	_GLIBCXX_SIMD_INTRINSIC static _SimdWrapper<_Tp, _Np>
2611	_S_ldexp(_SimdWrapper<_Tp, _Np> __x,
2612	__fixed_size_storage_t<int, _Np> __exp)
2613	{
2614	if constexpr (__is_avx512_abi<_Abi>())
2615	{
2616	const auto __xi = __to_intrin(__x);
2617	constexpr _SimdConverter<int, simd_abi::fixed_size<_Np>, _Tp, _Abi>
2618	__cvt;
2619	const auto __expi = __to_intrin(__cvt(__exp));
2620	constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
2621	if constexpr (sizeof(__xi) == 16)
2622	{
2623	if constexpr (sizeof(_Tp) == 8)
2624	return _mm_maskz_scalef_pd(__k1, __xi, __expi);
2625	else
2626	return _mm_maskz_scalef_ps(__k1, __xi, __expi);
2627	}
2628	else if constexpr (sizeof(__xi) == 32)
2629	{
2630	if constexpr (sizeof(_Tp) == 8)
2631	return _mm256_maskz_scalef_pd(__k1, __xi, __expi);
2632	else
2633	return _mm256_maskz_scalef_ps(__k1, __xi, __expi);
2634	}
2635	else
2636	{
2637	static_assert(sizeof(__xi) == 64);
2638	if constexpr (sizeof(_Tp) == 8)
2639	return _mm512_maskz_scalef_pd(__k1, __xi, __expi);
2640	else
2641	return _mm512_maskz_scalef_ps(__k1, __xi, __expi);
2642	}
2643	}
2644	else
2645	return _Base::_S_ldexp(__x, __exp);
2646	}
2647
2648	// }}}
2649	// _S_trunc {{{
2650	template <typename _Tp, size_t _Np>
2651	_GLIBCXX_SIMD_INTRINSIC static _SimdWrapper<_Tp, _Np>
2652	_S_trunc(_SimdWrapper<_Tp, _Np> __x)
2653	{
2654	if constexpr (__is_avx512_ps<_Tp, _Np>())
2655	return _mm512_roundscale_ps(__x, 0x0b);
2656	else if constexpr (__is_avx512_pd<_Tp, _Np>())
2657	return _mm512_roundscale_pd(__x, 0x0b);
2658	else if constexpr (__is_avx_ps<_Tp, _Np>())
2659	return _mm256_round_ps(__x, 0x3);
2660	else if constexpr (__is_avx_pd<_Tp, _Np>())
2661	return _mm256_round_pd(__x, 0x3);
2662	else if constexpr (__have_sse4_1 && __is_sse_ps<_Tp, _Np>())
2663	return __auto_bitcast(_mm_round_ps(__to_intrin(__x), 0x3));
2664	else if constexpr (__have_sse4_1 && __is_sse_pd<_Tp, _Np>())
2665	return _mm_round_pd(__x, 0x3);
2666	else if constexpr (__is_sse_ps<_Tp, _Np>())
2667	{
2668	auto __truncated
2669	= _mm_cvtepi32_ps(_mm_cvttps_epi32(__to_intrin(__x)));
2670	const auto __no_fractional_values
2671	= __vector_bitcast<int>(__vector_bitcast<_UInt>(__to_intrin(__x))
2672	& 0x7f800000u)
2673	< 0x4b000000; // the exponent is so large that no mantissa bits
2674	// signify fractional values (0x3f8 + 23*8 =
2675	// 0x4b0)
2676	return __no_fractional_values ? __truncated : __to_intrin(__x);
2677	}
2678	else
2679	return _Base::_S_trunc(__x);
2680	}
2681
2682	// }}}
2683	// _S_round {{{
2684	template <typename _Tp, size_t _Np>
2685	_GLIBCXX_SIMD_INTRINSIC static _SimdWrapper<_Tp, _Np>
2686	_S_round(_SimdWrapper<_Tp, _Np> __x)
2687	{
2688	// Note that _MM_FROUND_TO_NEAREST_INT rounds ties to even, not away
2689	// from zero as required by std::round. Therefore this function is more
2690	// complicated.
2691	using _V = __vector_type_t<_Tp, _Np>;
2692	_V __truncated;
2693	if constexpr (__is_avx512_ps<_Tp, _Np>())
2694	__truncated = _mm512_roundscale_ps(__x._M_data, 0x0b);
2695	else if constexpr (__is_avx512_pd<_Tp, _Np>())
2696	__truncated = _mm512_roundscale_pd(__x._M_data, 0x0b);
2697	else if constexpr (__is_avx_ps<_Tp, _Np>())
2698	__truncated = _mm256_round_ps(__x._M_data,
2699	_MM_FROUND_TO_ZERO \| _MM_FROUND_NO_EXC);
2700	else if constexpr (__is_avx_pd<_Tp, _Np>())
2701	__truncated = _mm256_round_pd(__x._M_data,
2702	_MM_FROUND_TO_ZERO \| _MM_FROUND_NO_EXC);
2703	else if constexpr (__have_sse4_1 && __is_sse_ps<_Tp, _Np>())
2704	__truncated = __auto_bitcast(
2705	_mm_round_ps(__to_intrin(__x),
2706	_MM_FROUND_TO_ZERO \| _MM_FROUND_NO_EXC));
2707	else if constexpr (__have_sse4_1 && __is_sse_pd<_Tp, _Np>())
2708	__truncated
2709	= _mm_round_pd(__x._M_data, _MM_FROUND_TO_ZERO \| _MM_FROUND_NO_EXC);
2710	else if constexpr (__is_sse_ps<_Tp, _Np>())
2711	__truncated = __auto_bitcast(
2712	_mm_cvtepi32_ps(_mm_cvttps_epi32(__to_intrin(__x))));
2713	else
2714	return _Base::_S_round(__x);
2715
2716	// x < 0 => truncated <= 0 && truncated >= x => x - truncated <= 0
2717	// x > 0 => truncated >= 0 && truncated <= x => x - truncated >= 0
2718
2719	const _V __rounded
2720	= __truncated
2721	+ (__and(_S_absmask<_V>, __x._M_data - __truncated) >= _Tp(.5)
2722	? __or(__and(_S_signmask<_V>, __x._M_data), _V() + 1)
2723	: _V());
2724	if constexpr (__have_sse4_1)
2725	return __rounded;
2726	else // adjust for missing range in cvttps_epi32
2727	return __and(_S_absmask<_V>, __x._M_data) < 0x1p23f ? __rounded
2728	: __x._M_data;
2729	}
2730
2731	// }}}
2732	// _S_nearbyint {{{
2733	template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
2734	_GLIBCXX_SIMD_INTRINSIC static _Tp _S_nearbyint(_Tp __x) noexcept
2735	{
2736	if constexpr (_TVT::template _S_is<float, 16>)
2737	return _mm512_roundscale_ps(__x, 0x0c);
2738	else if constexpr (_TVT::template _S_is<double, 8>)
2739	return _mm512_roundscale_pd(__x, 0x0c);
2740	else if constexpr (_TVT::template _S_is<float, 8>)
2741	return _mm256_round_ps(__x,
2742	_MM_FROUND_CUR_DIRECTION \| _MM_FROUND_NO_EXC);
2743	else if constexpr (_TVT::template _S_is<double, 4>)
2744	return _mm256_round_pd(__x,
2745	_MM_FROUND_CUR_DIRECTION \| _MM_FROUND_NO_EXC);
2746	else if constexpr (__have_sse4_1 && _TVT::template _S_is<float, 4>)
2747	return _mm_round_ps(__x,
2748	_MM_FROUND_CUR_DIRECTION \| _MM_FROUND_NO_EXC);
2749	else if constexpr (__have_sse4_1 && _TVT::template _S_is<double, 2>)
2750	return _mm_round_pd(__x,
2751	_MM_FROUND_CUR_DIRECTION \| _MM_FROUND_NO_EXC);
2752	else
2753	return _Base::_S_nearbyint(__x);
2754	}
2755
2756	// }}}
2757	// _S_rint {{{
2758	template <typename _Tp, typename _TVT = _VectorTraits<_Tp>>
2759	_GLIBCXX_SIMD_INTRINSIC static _Tp _S_rint(_Tp __x) noexcept
2760	{
2761	if constexpr (_TVT::template _S_is<float, 16>)
2762	return _mm512_roundscale_ps(__x, 0x04);
2763	else if constexpr (_TVT::template _S_is<double, 8>)
2764	return _mm512_roundscale_pd(__x, 0x04);
2765	else if constexpr (_TVT::template _S_is<float, 8>)
2766	return _mm256_round_ps(__x, _MM_FROUND_CUR_DIRECTION);
2767	else if constexpr (_TVT::template _S_is<double, 4>)
2768	return _mm256_round_pd(__x, _MM_FROUND_CUR_DIRECTION);
2769	else if constexpr (__have_sse4_1 && _TVT::template _S_is<float, 4>)
2770	return _mm_round_ps(__x, _MM_FROUND_CUR_DIRECTION);
2771	else if constexpr (__have_sse4_1 && _TVT::template _S_is<double, 2>)
2772	return _mm_round_pd(__x, _MM_FROUND_CUR_DIRECTION);
2773	else
2774	return _Base::_S_rint(__x);
2775	}
2776
2777	// }}}
2778	// _S_floor {{{
2779	template <typename _Tp, size_t _Np>
2780	_GLIBCXX_SIMD_INTRINSIC static _SimdWrapper<_Tp, _Np>
2781	_S_floor(_SimdWrapper<_Tp, _Np> __x)
2782	{
2783	if constexpr (__is_avx512_ps<_Tp, _Np>())
2784	return _mm512_roundscale_ps(__x, 0x09);
2785	else if constexpr (__is_avx512_pd<_Tp, _Np>())
2786	return _mm512_roundscale_pd(__x, 0x09);
2787	else if constexpr (__is_avx_ps<_Tp, _Np>())
2788	return _mm256_round_ps(__x, 0x1);
2789	else if constexpr (__is_avx_pd<_Tp, _Np>())
2790	return _mm256_round_pd(__x, 0x1);
2791	else if constexpr (__have_sse4_1 && __is_sse_ps<_Tp, _Np>())
2792	return __auto_bitcast(_mm_floor_ps(__to_intrin(__x)));
2793	else if constexpr (__have_sse4_1 && __is_sse_pd<_Tp, _Np>())
2794	return _mm_floor_pd(__x);
2795	else
2796	return _Base::_S_floor(__x);
2797	}
2798
2799	// }}}
2800	// _S_ceil {{{
2801	template <typename _Tp, size_t _Np>
2802	_GLIBCXX_SIMD_INTRINSIC static _SimdWrapper<_Tp, _Np>
2803	_S_ceil(_SimdWrapper<_Tp, _Np> __x)
2804	{
2805	if constexpr (__is_avx512_ps<_Tp, _Np>())
2806	return _mm512_roundscale_ps(__x, 0x0a);
2807	else if constexpr (__is_avx512_pd<_Tp, _Np>())
2808	return _mm512_roundscale_pd(__x, 0x0a);
2809	else if constexpr (__is_avx_ps<_Tp, _Np>())
2810	return _mm256_round_ps(__x, 0x2);
2811	else if constexpr (__is_avx_pd<_Tp, _Np>())
2812	return _mm256_round_pd(__x, 0x2);
2813	else if constexpr (__have_sse4_1 && __is_sse_ps<_Tp, _Np>())
2814	return __auto_bitcast(_mm_ceil_ps(__to_intrin(__x)));
2815	else if constexpr (__have_sse4_1 && __is_sse_pd<_Tp, _Np>())
2816	return _mm_ceil_pd(__x);
2817	else
2818	return _Base::_S_ceil(__x);
2819	}
2820
2821	// }}}
2822	// _S_signbit {{{
2823	template <typename _Tp, size_t _Np>
2824	_GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
2825	_S_signbit(_SimdWrapper<_Tp, _Np> __x)
2826	{
2827	if constexpr (__is_avx512_abi<_Abi>() && __have_avx512dq)
2828	{
2829	if constexpr (sizeof(__x) == 64 && sizeof(_Tp) == 4)
2830	return _mm512_movepi32_mask(
2831	__intrin_bitcast<__m512i>(__x._M_data));
2832	else if constexpr (sizeof(__x) == 64 && sizeof(_Tp) == 8)
2833	return _mm512_movepi64_mask(
2834	__intrin_bitcast<__m512i>(__x._M_data));
2835	else if constexpr (sizeof(__x) == 32 && sizeof(_Tp) == 4)
2836	return _mm256_movepi32_mask(
2837	__intrin_bitcast<__m256i>(__x._M_data));
2838	else if constexpr (sizeof(__x) == 32 && sizeof(_Tp) == 8)
2839	return _mm256_movepi64_mask(
2840	__intrin_bitcast<__m256i>(__x._M_data));
2841	else if constexpr (sizeof(__x) <= 16 && sizeof(_Tp) == 4)
2842	return _mm_movepi32_mask(__intrin_bitcast<__m128i>(__x._M_data));
2843	else if constexpr (sizeof(__x) <= 16 && sizeof(_Tp) == 8)
2844	return _mm_movepi64_mask(__intrin_bitcast<__m128i>(__x._M_data));
2845	}
2846	else if constexpr (__is_avx512_abi<_Abi>())
2847	{
2848	const auto __xi = __to_intrin(__x);
2849	[[maybe_unused]] constexpr auto __k1
2850	= _Abi::template _S_implicit_mask_intrin<_Tp>();
2851	if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
2852	return _mm_movemask_ps(__xi);
2853	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
2854	return _mm_movemask_pd(__xi);
2855	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
2856	return _mm256_movemask_ps(__xi);
2857	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
2858	return _mm256_movemask_pd(__xi);
2859	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
2860	return _mm512_mask_cmplt_epi32_mask(
2861	__k1, __intrin_bitcast<__m512i>(__xi), __m512i());
2862	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
2863	return _mm512_mask_cmplt_epi64_mask(
2864	__k1, __intrin_bitcast<__m512i>(__xi), __m512i());
2865	else
2866	__assert_unreachable<_Tp>();
2867	}
2868	else
2869	return _Base::_S_signbit(__x);
2870	/*{
2871	using _I = __int_for_sizeof_t<_Tp>;
2872	if constexpr (sizeof(__x) == 64)
2873	return _S_less(__vector_bitcast<_I>(__x), _I());
2874	else
2875	{
2876	const auto __xx = __vector_bitcast<_I>(__x._M_data);
2877	[[maybe_unused]] constexpr _I __signmask = __finite_min_v<_I>;
2878	if constexpr ((sizeof(_Tp) == 4 &&
2879	(__have_avx2 \|\| sizeof(__x) == 16)) \|\|
2880	__have_avx512vl)
2881	{
2882	return __vector_bitcast<_Tp>(__xx >> __digits_v<_I>);
2883	}
2884	else if constexpr ((__have_avx2 \|\|
2885	(__have_ssse3 && sizeof(__x) == 16)))
2886	{
2887	return __vector_bitcast<_Tp>((__xx & __signmask) ==
2888	__signmask);
2889	}
2890	else
2891	{ // SSE2/3 or AVX (w/o AVX2)
2892	constexpr auto __one = __vector_broadcast<_Np, _Tp>(1);
2893	return __vector_bitcast<_Tp>(
2894	__vector_bitcast<_Tp>(
2895	(__xx & __signmask) \|
2896	__vector_bitcast<_I>(__one)) // -1 or 1
2897	!= __one);
2898	}
2899	}
2900	}*/
2901	}
2902
2903	// }}}
2904	// _S_isnonzerovalue_mask {{{
2905	// (isnormal \| is subnormal == !isinf & !isnan & !is zero)
2906	template <typename _Tp>
2907	_GLIBCXX_SIMD_INTRINSIC static auto _S_isnonzerovalue_mask(_Tp __x)
2908	{
2909	using _Traits = _VectorTraits<_Tp>;
2910	if constexpr (__have_avx512dq_vl)
2911	{
2912	if constexpr (_Traits::template _S_is<
2913	float, 2> \|\| _Traits::template _S_is<float, 4>)
2914	return _knot_mask8(_mm_fpclass_ps_mask(__to_intrin(__x), 0x9f));
2915	else if constexpr (_Traits::template _S_is<float, 8>)
2916	return _knot_mask8(_mm256_fpclass_ps_mask(__x, 0x9f));
2917	else if constexpr (_Traits::template _S_is<float, 16>)
2918	return _knot_mask16(_mm512_fpclass_ps_mask(__x, 0x9f));
2919	else if constexpr (_Traits::template _S_is<double, 2>)
2920	return _knot_mask8(_mm_fpclass_pd_mask(__x, 0x9f));
2921	else if constexpr (_Traits::template _S_is<double, 4>)
2922	return _knot_mask8(_mm256_fpclass_pd_mask(__x, 0x9f));
2923	else if constexpr (_Traits::template _S_is<double, 8>)
2924	return _knot_mask8(_mm512_fpclass_pd_mask(__x, 0x9f));
2925	else
2926	__assert_unreachable<_Tp>();
2927	}
2928	else
2929	{
2930	using _Up = typename _Traits::value_type;
2931	constexpr size_t _Np = _Traits::_S_full_size;
2932	const auto __a = __x * __infinity_v<_Up>; // NaN if __x == 0
2933	const auto __b = __x * _Up(); // NaN if __x == inf
2934	if constexpr (__have_avx512vl && __is_sse_ps<_Up, _Np>())
2935	return _mm_cmp_ps_mask(__to_intrin(__a), __to_intrin(__b),
2936	_CMP_ORD_Q);
2937	else if constexpr (__have_avx512f && __is_sse_ps<_Up, _Np>())
2938	return __mmask8(0xf
2939	& _mm512_cmp_ps_mask(__auto_bitcast(__a),
2940	__auto_bitcast(__b),
2941	_CMP_ORD_Q));
2942	else if constexpr (__have_avx512vl && __is_sse_pd<_Up, _Np>())
2943	return _mm_cmp_pd_mask(__a, __b, _CMP_ORD_Q);
2944	else if constexpr (__have_avx512f && __is_sse_pd<_Up, _Np>())
2945	return __mmask8(0x3
2946	& _mm512_cmp_pd_mask(__auto_bitcast(__a),
2947	__auto_bitcast(__b),
2948	_CMP_ORD_Q));
2949	else if constexpr (__have_avx512vl && __is_avx_ps<_Up, _Np>())
2950	return _mm256_cmp_ps_mask(__a, __b, _CMP_ORD_Q);
2951	else if constexpr (__have_avx512f && __is_avx_ps<_Up, _Np>())
2952	return __mmask8(_mm512_cmp_ps_mask(__auto_bitcast(__a),
2953	__auto_bitcast(__b),
2954	_CMP_ORD_Q));
2955	else if constexpr (__have_avx512vl && __is_avx_pd<_Up, _Np>())
2956	return _mm256_cmp_pd_mask(__a, __b, _CMP_ORD_Q);
2957	else if constexpr (__have_avx512f && __is_avx_pd<_Up, _Np>())
2958	return __mmask8(0xf
2959	& _mm512_cmp_pd_mask(__auto_bitcast(__a),
2960	__auto_bitcast(__b),
2961	_CMP_ORD_Q));
2962	else if constexpr (__is_avx512_ps<_Up, _Np>())
2963	return _mm512_cmp_ps_mask(__a, __b, _CMP_ORD_Q);
2964	else if constexpr (__is_avx512_pd<_Up, _Np>())
2965	return _mm512_cmp_pd_mask(__a, __b, _CMP_ORD_Q);
2966	else
2967	__assert_unreachable<_Tp>();
2968	}
2969	}
2970
2971	// }}}
2972	// _S_isfinite {{{
2973	template <typename _Tp, size_t _Np>
2974	_GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
2975	_S_isfinite(_SimdWrapper<_Tp, _Np> __x)
2976	{
2977	static_assert(is_floating_point_v<_Tp>);
2978	#if !__FINITE_MATH_ONLY__
2979	if constexpr (__is_avx512_abi<_Abi>() && __have_avx512dq)
2980	{
2981	const auto __xi = __to_intrin(__x);
2982	constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
2983	if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
2984	return __k1 ^ _mm512_mask_fpclass_ps_mask(__k1, __xi, 0x99);
2985	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
2986	return __k1 ^ _mm512_mask_fpclass_pd_mask(__k1, __xi, 0x99);
2987	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
2988	return __k1 ^ _mm256_mask_fpclass_ps_mask(__k1, __xi, 0x99);
2989	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
2990	return __k1 ^ _mm256_mask_fpclass_pd_mask(__k1, __xi, 0x99);
2991	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
2992	return __k1 ^ _mm_mask_fpclass_ps_mask(__k1, __xi, 0x99);
2993	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
2994	return __k1 ^ _mm_mask_fpclass_pd_mask(__k1, __xi, 0x99);
2995	}
2996	else if constexpr (__is_avx512_abi<_Abi>())
2997	{
2998	// if all exponent bits are set, __x is either inf or NaN
2999	using _I = __int_for_sizeof_t<_Tp>;
3000	const auto __inf = __vector_bitcast<_I>(
3001	__vector_broadcast<_Np>(__infinity_v<_Tp>));
3002	return _S_less<_I, _Np>(__vector_bitcast<_I>(__x) & __inf, __inf);
3003	}
3004	else
3005	#endif
3006	return _Base::_S_isfinite(__x);
3007	}
3008
3009	// }}}
3010	// _S_isinf {{{
3011	template <typename _Tp, size_t _Np>
3012	_GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
3013	_S_isinf(_SimdWrapper<_Tp, _Np> __x)
3014	{
3015	#if !__FINITE_MATH_ONLY__
3016	if constexpr (__is_avx512_abi<_Abi>() && __have_avx512dq)
3017	{
3018	const auto __xi = __to_intrin(__x);
3019	if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
3020	return _mm512_fpclass_ps_mask(__xi, 0x18);
3021	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
3022	return _mm512_fpclass_pd_mask(__xi, 0x18);
3023	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3024	return _mm256_fpclass_ps_mask(__xi, 0x18);
3025	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3026	return _mm256_fpclass_pd_mask(__xi, 0x18);
3027	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3028	return _mm_fpclass_ps_mask(__xi, 0x18);
3029	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3030	return _mm_fpclass_pd_mask(__xi, 0x18);
3031	else
3032	__assert_unreachable<_Tp>();
3033	}
3034	else if constexpr (__have_avx512dq_vl)
3035	{
3036	if constexpr (__is_sse_pd<_Tp, _Np>())
3037	return _mm_movm_epi64(_mm_fpclass_pd_mask(__x, 0x18));
3038	else if constexpr (__is_avx_pd<_Tp, _Np>())
3039	return _mm256_movm_epi64(_mm256_fpclass_pd_mask(__x, 0x18));
3040	else if constexpr (__is_sse_ps<_Tp, _Np>())
3041	return _mm_movm_epi32(
3042	_mm_fpclass_ps_mask(__to_intrin(__x), 0x18));
3043	else if constexpr (__is_avx_ps<_Tp, _Np>())
3044	return _mm256_movm_epi32(_mm256_fpclass_ps_mask(__x, 0x18));
3045	else
3046	__assert_unreachable<_Tp>();
3047	}
3048	else
3049	#endif
3050	return _Base::_S_isinf(__x);
3051	}
3052
3053	// }}}
3054	// _S_isnormal {{{
3055	template <typename _Tp, size_t _Np>
3056	_GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
3057	_S_isnormal(_SimdWrapper<_Tp, _Np> __x)
3058	{
3059	#if __FINITE_MATH_ONLY__
3060	[[maybe_unused]] constexpr int __mode = 0x26;
3061	#else
3062	[[maybe_unused]] constexpr int __mode = 0xbf;
3063	#endif
3064	if constexpr (__is_avx512_abi<_Abi>() && __have_avx512dq)
3065	{
3066	const auto __xi = __to_intrin(__x);
3067	const auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
3068	if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
3069	return __k1 ^ _mm512_mask_fpclass_ps_mask(__k1, __xi, __mode);
3070	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
3071	return __k1 ^ _mm512_mask_fpclass_pd_mask(__k1, __xi, __mode);
3072	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3073	return __k1 ^ _mm256_mask_fpclass_ps_mask(__k1, __xi, __mode);
3074	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3075	return __k1 ^ _mm256_mask_fpclass_pd_mask(__k1, __xi, __mode);
3076	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3077	return __k1 ^ _mm_mask_fpclass_ps_mask(__k1, __xi, __mode);
3078	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3079	return __k1 ^ _mm_mask_fpclass_pd_mask(__k1, __xi, __mode);
3080	else
3081	__assert_unreachable<_Tp>();
3082	}
3083	else if constexpr (__have_avx512dq)
3084	{
3085	if constexpr (__have_avx512vl && __is_sse_ps<_Tp, _Np>())
3086	return _mm_movm_epi32(
3087	_knot_mask8(_mm_fpclass_ps_mask(__to_intrin(__x), __mode)));
3088	else if constexpr (__have_avx512vl && __is_avx_ps<_Tp, _Np>())
3089	return _mm256_movm_epi32(
3090	_knot_mask8(_mm256_fpclass_ps_mask(__x, __mode)));
3091	else if constexpr (__is_avx512_ps<_Tp, _Np>())
3092	return _knot_mask16(_mm512_fpclass_ps_mask(__x, __mode));
3093	else if constexpr (__have_avx512vl && __is_sse_pd<_Tp, _Np>())
3094	return _mm_movm_epi64(
3095	_knot_mask8(_mm_fpclass_pd_mask(__x, __mode)));
3096	else if constexpr (__have_avx512vl && __is_avx_pd<_Tp, _Np>())
3097	return _mm256_movm_epi64(
3098	_knot_mask8(_mm256_fpclass_pd_mask(__x, __mode)));
3099	else if constexpr (__is_avx512_pd<_Tp, _Np>())
3100	return _knot_mask8(_mm512_fpclass_pd_mask(__x, __mode));
3101	else
3102	__assert_unreachable<_Tp>();
3103	}
3104	else if constexpr (__is_avx512_abi<_Abi>())
3105	{
3106	using _I = __int_for_sizeof_t<_Tp>;
3107	const auto absn = __vector_bitcast<_I>(_S_abs(__x));
3108	const auto minn = __vector_bitcast<_I>(
3109	__vector_broadcast<_Np>(__norm_min_v<_Tp>));
3110	#if __FINITE_MATH_ONLY__
3111	return _S_less_equal<_I, _Np>(minn, absn);
3112	#else
3113	const auto infn
3114	= __vector_bitcast<_I>(__vector_broadcast<_Np>(__infinity_v<_Tp>));
3115	return __and(_S_less_equal<_I, _Np>(minn, absn),
3116	_S_less<_I, _Np>(absn, infn));
3117	#endif
3118	}
3119	else
3120	return _Base::_S_isnormal(__x);
3121	}
3122
3123	// }}}
3124	// _S_isnan {{{
3125	template <typename _Tp, size_t _Np>
3126	_GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
3127	_S_isnan(_SimdWrapper<_Tp, _Np> __x)
3128	{ return _S_isunordered(__x, __x); }
3129
3130	// }}}
3131	// _S_isunordered {{{
3132	template <typename _Tp, size_t _Np>
3133	_GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
3134	_S_isunordered([[maybe_unused]] _SimdWrapper<_Tp, _Np> __x,
3135	[[maybe_unused]] _SimdWrapper<_Tp, _Np> __y)
3136	{
3137	#if __FINITE_MATH_ONLY__
3138	return {}; // false
3139	#else
3140	const auto __xi = __to_intrin(__x);
3141	const auto __yi = __to_intrin(__y);
3142	if constexpr (__is_avx512_abi<_Abi>())
3143	{
3144	constexpr auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
3145	if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
3146	return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_UNORD_Q);
3147	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
3148	return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_UNORD_Q);
3149	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3150	return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_UNORD_Q);
3151	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3152	return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_UNORD_Q);
3153	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3154	return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_UNORD_Q);
3155	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3156	return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_UNORD_Q);
3157	}
3158	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3159	return __to_masktype(_mm256_cmp_ps(__xi, __yi, _CMP_UNORD_Q));
3160	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3161	return __to_masktype(_mm256_cmp_pd(__xi, __yi, _CMP_UNORD_Q));
3162	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3163	return __auto_bitcast(_mm_cmpunord_ps(__xi, __yi));
3164	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3165	return __to_masktype(_mm_cmpunord_pd(__xi, __yi));
3166	else
3167	__assert_unreachable<_Tp>();
3168	#endif
3169	}
3170
3171	// }}}
3172	// _S_isgreater {{{
3173	template <typename _Tp, size_t _Np>
3174	static constexpr _MaskMember<_Tp> _S_isgreater(_SimdWrapper<_Tp, _Np> __x,
3175	_SimdWrapper<_Tp, _Np> __y)
3176	{
3177	const auto __xi = __to_intrin(__x);
3178	const auto __yi = __to_intrin(__y);
3179	if constexpr (__is_avx512_abi<_Abi>())
3180	{
3181	const auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
3182	if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
3183	return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_GT_OQ);
3184	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
3185	return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_GT_OQ);
3186	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3187	return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_GT_OQ);
3188	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3189	return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_GT_OQ);
3190	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3191	return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_GT_OQ);
3192	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3193	return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_GT_OQ);
3194	else
3195	__assert_unreachable<_Tp>();
3196	}
3197	else if constexpr (__have_avx)
3198	{
3199	if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3200	return __to_masktype(_mm256_cmp_ps(__xi, __yi, _CMP_GT_OQ));
3201	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3202	return __to_masktype(_mm256_cmp_pd(__xi, __yi, _CMP_GT_OQ));
3203	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3204	return __auto_bitcast(_mm_cmp_ps(__xi, __yi, _CMP_GT_OQ));
3205	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3206	return __to_masktype(_mm_cmp_pd(__xi, __yi, _CMP_GT_OQ));
3207	else
3208	__assert_unreachable<_Tp>();
3209	}
3210	else if constexpr (__have_sse2 && sizeof(__xi) == 16
3211	&& sizeof(_Tp) == 4)
3212	{
3213	const auto __xn = __vector_bitcast<int>(__xi);
3214	const auto __yn = __vector_bitcast<int>(__yi);
3215	const auto __xp = __xn < 0 ? -(__xn & 0x7fff'ffff) : __xn;
3216	const auto __yp = __yn < 0 ? -(__yn & 0x7fff'ffff) : __yn;
3217	return __auto_bitcast(
3218	__and(__to_masktype(_mm_cmpord_ps(__xi, __yi)), __xp > __yp));
3219	}
3220	else if constexpr (__have_sse2 && sizeof(__xi) == 16
3221	&& sizeof(_Tp) == 8)
3222	return __vector_type_t<__int_with_sizeof_t<8>, 2>{
3223	-_mm_ucomigt_sd(__xi, __yi),
3224	-_mm_ucomigt_sd(_mm_unpackhi_pd(__xi, __xi),
3225	_mm_unpackhi_pd(__yi, __yi))};
3226	else
3227	return _Base::_S_isgreater(__x, __y);
3228	}
3229
3230	// }}}
3231	// _S_isgreaterequal {{{
3232	template <typename _Tp, size_t _Np>
3233	static constexpr _MaskMember<_Tp>
3234	_S_isgreaterequal(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
3235	{
3236	const auto __xi = __to_intrin(__x);
3237	const auto __yi = __to_intrin(__y);
3238	if constexpr (__is_avx512_abi<_Abi>())
3239	{
3240	const auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
3241	if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
3242	return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_GE_OQ);
3243	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
3244	return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_GE_OQ);
3245	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3246	return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_GE_OQ);
3247	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3248	return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_GE_OQ);
3249	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3250	return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_GE_OQ);
3251	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3252	return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_GE_OQ);
3253	else
3254	__assert_unreachable<_Tp>();
3255	}
3256	else if constexpr (__have_avx)
3257	{
3258	if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3259	return __to_masktype(_mm256_cmp_ps(__xi, __yi, _CMP_GE_OQ));
3260	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3261	return __to_masktype(_mm256_cmp_pd(__xi, __yi, _CMP_GE_OQ));
3262	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3263	return __auto_bitcast(_mm_cmp_ps(__xi, __yi, _CMP_GE_OQ));
3264	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3265	return __to_masktype(_mm_cmp_pd(__xi, __yi, _CMP_GE_OQ));
3266	else
3267	__assert_unreachable<_Tp>();
3268	}
3269	else if constexpr (__have_sse2 && sizeof(__xi) == 16
3270	&& sizeof(_Tp) == 4)
3271	{
3272	const auto __xn = __vector_bitcast<int>(__xi);
3273	const auto __yn = __vector_bitcast<int>(__yi);
3274	const auto __xp = __xn < 0 ? -(__xn & 0x7fff'ffff) : __xn;
3275	const auto __yp = __yn < 0 ? -(__yn & 0x7fff'ffff) : __yn;
3276	return __auto_bitcast(
3277	__and(__to_masktype(_mm_cmpord_ps(__xi, __yi)), __xp >= __yp));
3278	}
3279	else if constexpr (__have_sse2 && sizeof(__xi) == 16
3280	&& sizeof(_Tp) == 8)
3281	return __vector_type_t<__int_with_sizeof_t<8>, 2>{
3282	-_mm_ucomige_sd(__xi, __yi),
3283	-_mm_ucomige_sd(_mm_unpackhi_pd(__xi, __xi),
3284	_mm_unpackhi_pd(__yi, __yi))};
3285	else
3286	return _Base::_S_isgreaterequal(__x, __y);
3287	}
3288
3289	// }}}
3290	// _S_isless {{{
3291	template <typename _Tp, size_t _Np>
3292	static constexpr _MaskMember<_Tp> _S_isless(_SimdWrapper<_Tp, _Np> __x,
3293	_SimdWrapper<_Tp, _Np> __y)
3294	{
3295	const auto __xi = __to_intrin(__x);
3296	const auto __yi = __to_intrin(__y);
3297	if constexpr (__is_avx512_abi<_Abi>())
3298	{
3299	const auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
3300	if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
3301	return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LT_OQ);
3302	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
3303	return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LT_OQ);
3304	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3305	return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LT_OQ);
3306	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3307	return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LT_OQ);
3308	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3309	return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LT_OQ);
3310	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3311	return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LT_OQ);
3312	else
3313	__assert_unreachable<_Tp>();
3314	}
3315	else if constexpr (__have_avx)
3316	{
3317	if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3318	return __to_masktype(_mm256_cmp_ps(__xi, __yi, _CMP_LT_OQ));
3319	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3320	return __to_masktype(_mm256_cmp_pd(__xi, __yi, _CMP_LT_OQ));
3321	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3322	return __auto_bitcast(_mm_cmp_ps(__xi, __yi, _CMP_LT_OQ));
3323	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3324	return __to_masktype(_mm_cmp_pd(__xi, __yi, _CMP_LT_OQ));
3325	else
3326	__assert_unreachable<_Tp>();
3327	}
3328	else if constexpr (__have_sse2 && sizeof(__xi) == 16
3329	&& sizeof(_Tp) == 4)
3330	{
3331	const auto __xn = __vector_bitcast<int>(__xi);
3332	const auto __yn = __vector_bitcast<int>(__yi);
3333	const auto __xp = __xn < 0 ? -(__xn & 0x7fff'ffff) : __xn;
3334	const auto __yp = __yn < 0 ? -(__yn & 0x7fff'ffff) : __yn;
3335	return __auto_bitcast(
3336	__and(__to_masktype(_mm_cmpord_ps(__xi, __yi)), __xp < __yp));
3337	}
3338	else if constexpr (__have_sse2 && sizeof(__xi) == 16
3339	&& sizeof(_Tp) == 8)
3340	return __vector_type_t<__int_with_sizeof_t<8>, 2>{
3341	-_mm_ucomigt_sd(__yi, __xi),
3342	-_mm_ucomigt_sd(_mm_unpackhi_pd(__yi, __yi),
3343	_mm_unpackhi_pd(__xi, __xi))};
3344	else
3345	return _Base::_S_isless(__x, __y);
3346	}
3347
3348	// }}}
3349	// _S_islessequal {{{
3350	template <typename _Tp, size_t _Np>
3351	static constexpr _MaskMember<_Tp>
3352	_S_islessequal(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
3353	{
3354	const auto __xi = __to_intrin(__x);
3355	const auto __yi = __to_intrin(__y);
3356	if constexpr (__is_avx512_abi<_Abi>())
3357	{
3358	const auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
3359	if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
3360	return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LE_OQ);
3361	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
3362	return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LE_OQ);
3363	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3364	return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LE_OQ);
3365	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3366	return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LE_OQ);
3367	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3368	return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_LE_OQ);
3369	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3370	return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_LE_OQ);
3371	else
3372	__assert_unreachable<_Tp>();
3373	}
3374	else if constexpr (__have_avx)
3375	{
3376	if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3377	return __to_masktype(_mm256_cmp_ps(__xi, __yi, _CMP_LE_OQ));
3378	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3379	return __to_masktype(_mm256_cmp_pd(__xi, __yi, _CMP_LE_OQ));
3380	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3381	return __auto_bitcast(_mm_cmp_ps(__xi, __yi, _CMP_LE_OQ));
3382	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3383	return __to_masktype(_mm_cmp_pd(__xi, __yi, _CMP_LE_OQ));
3384	else
3385	__assert_unreachable<_Tp>();
3386	}
3387	else if constexpr (__have_sse2 && sizeof(__xi) == 16
3388	&& sizeof(_Tp) == 4)
3389	{
3390	const auto __xn = __vector_bitcast<int>(__xi);
3391	const auto __yn = __vector_bitcast<int>(__yi);
3392	const auto __xp = __xn < 0 ? -(__xn & 0x7fff'ffff) : __xn;
3393	const auto __yp = __yn < 0 ? -(__yn & 0x7fff'ffff) : __yn;
3394	return __auto_bitcast(
3395	__and(__to_masktype(_mm_cmpord_ps(__xi, __yi)), __xp <= __yp));
3396	}
3397	else if constexpr (__have_sse2 && sizeof(__xi) == 16
3398	&& sizeof(_Tp) == 8)
3399	return __vector_type_t<__int_with_sizeof_t<8>, 2>{
3400	-_mm_ucomige_sd(__yi, __xi),
3401	-_mm_ucomige_sd(_mm_unpackhi_pd(__yi, __yi),
3402	_mm_unpackhi_pd(__xi, __xi))};
3403	else
3404	return _Base::_S_islessequal(__x, __y);
3405	}
3406
3407	// }}}
3408	// _S_islessgreater {{{
3409	template <typename _Tp, size_t _Np>
3410	static constexpr _MaskMember<_Tp>
3411	_S_islessgreater(_SimdWrapper<_Tp, _Np> __x, _SimdWrapper<_Tp, _Np> __y)
3412	{
3413	const auto __xi = __to_intrin(__x);
3414	const auto __yi = __to_intrin(__y);
3415	if constexpr (__is_avx512_abi<_Abi>())
3416	{
3417	const auto __k1 = _Abi::template _S_implicit_mask_intrin<_Tp>();
3418	if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 4)
3419	return _mm512_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_NEQ_OQ);
3420	else if constexpr (sizeof(__xi) == 64 && sizeof(_Tp) == 8)
3421	return _mm512_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_NEQ_OQ);
3422	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3423	return _mm256_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_NEQ_OQ);
3424	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3425	return _mm256_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_NEQ_OQ);
3426	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3427	return _mm_mask_cmp_ps_mask(__k1, __xi, __yi, _CMP_NEQ_OQ);
3428	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3429	return _mm_mask_cmp_pd_mask(__k1, __xi, __yi, _CMP_NEQ_OQ);
3430	else
3431	__assert_unreachable<_Tp>();
3432	}
3433	else if constexpr (__have_avx)
3434	{
3435	if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 4)
3436	return __to_masktype(_mm256_cmp_ps(__xi, __yi, _CMP_NEQ_OQ));
3437	else if constexpr (sizeof(__xi) == 32 && sizeof(_Tp) == 8)
3438	return __to_masktype(_mm256_cmp_pd(__xi, __yi, _CMP_NEQ_OQ));
3439	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3440	return __auto_bitcast(_mm_cmp_ps(__xi, __yi, _CMP_NEQ_OQ));
3441	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3442	return __to_masktype(_mm_cmp_pd(__xi, __yi, _CMP_NEQ_OQ));
3443	else
3444	__assert_unreachable<_Tp>();
3445	}
3446	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 4)
3447	return __auto_bitcast(
3448	__and(_mm_cmpord_ps(__xi, __yi), _mm_cmpneq_ps(__xi, __yi)));
3449	else if constexpr (sizeof(__xi) == 16 && sizeof(_Tp) == 8)
3450	return __to_masktype(
3451	__and(_mm_cmpord_pd(__xi, __yi), _mm_cmpneq_pd(__xi, __yi)));
3452	else
3453	__assert_unreachable<_Tp>();
3454	}
3455
3456	//}}} }}}
3457	};
3458
3459	// }}}
3460	// _MaskImplX86Mixin {{{
3461	struct _MaskImplX86Mixin
3462	{
3463	template <typename _Tp>
3464	using _TypeTag = _Tp*;
3465
3466	using _Base = _MaskImplBuiltinMixin;
3467
3468	// _S_to_maskvector(bool) {{{
3469	template <typename _Up, size_t _ToN = 1, typename _Tp>
3470	_GLIBCXX_SIMD_INTRINSIC static constexpr enable_if_t<
3471	is_same_v<_Tp, bool>, _SimdWrapper<_Up, _ToN>>
3472	_S_to_maskvector(_Tp __x)
3473	{
3474	static_assert(is_same_v<_Up, __int_for_sizeof_t<_Up>>);
3475	return __x ? __vector_type_t<_Up, _ToN>{~_Up()}
3476	: __vector_type_t<_Up, _ToN>();
3477	}
3478
3479	// }}}
3480	// _S_to_maskvector(_SanitizedBitMask) {{{
3481	template <typename _Up, size_t _UpN = 0, size_t _Np,
3482	size_t _ToN = _UpN == 0 ? _Np : _UpN>
3483	_GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Up, _ToN>
3484	_S_to_maskvector(_SanitizedBitMask<_Np> __x)
3485	{
3486	static_assert(is_same_v<_Up, __int_for_sizeof_t<_Up>>);
3487	using _UV = __vector_type_t<_Up, _ToN>;
3488	using _UI = __intrinsic_type_t<_Up, _ToN>;
3489	[[maybe_unused]] const auto __k = __x._M_to_bits();
3490	if constexpr (_Np == 1)
3491	return _S_to_maskvector<_Up, _ToN>(__k);
3492	else if (__x._M_is_constprop() \|\| __builtin_is_constant_evaluated())
3493	return __generate_from_n_evaluations<std::min(_ToN, _Np), _UV>(
3494	[&](auto __i) -> _Up { return -__x[__i.value]; });
3495	else if constexpr (sizeof(_Up) == 1)
3496	{
3497	if constexpr (sizeof(_UI) == 16)
3498	{
3499	if constexpr (__have_avx512bw_vl)
3500	return __intrin_bitcast<_UV>(_mm_movm_epi8(__k));
3501	else if constexpr (__have_avx512bw)
3502	return __intrin_bitcast<_UV>(__lo128(_mm512_movm_epi8(__k)));
3503	else if constexpr (__have_avx512f)
3504	{
3505	auto __as32bits = _mm512_maskz_mov_epi32(__k, ~__m512i());
3506	auto __as16bits
3507	= __xzyw(_mm256_packs_epi32(__lo256(__as32bits),
3508	__hi256(__as32bits)));
3509	return __intrin_bitcast<_UV>(
3510	_mm_packs_epi16(__lo128(__as16bits), __hi128(__as16bits)));
3511	}
3512	else if constexpr (__have_ssse3)
3513	{
3514	const auto __bitmask = __to_intrin(
3515	__make_vector<_UChar>(1, 2, 4, 8, 16, 32, 64, 128, 1, 2, 4,
3516	8, 16, 32, 64, 128));
3517	return __intrin_bitcast<_UV>(
3518	__vector_bitcast<_Up>(
3519	_mm_shuffle_epi8(__to_intrin(
3520	__vector_type_t<_ULLong, 2>{__k}),
3521	_mm_setr_epi8(0, 0, 0, 0, 0, 0, 0, 0, 1,
3522	1, 1, 1, 1, 1, 1, 1))
3523	& __bitmask)
3524	!= 0);
3525	}
3526	// else fall through
3527	}
3528	else if constexpr (sizeof(_UI) == 32)
3529	{
3530	if constexpr (__have_avx512bw_vl)
3531	return __vector_bitcast<_Up>(_mm256_movm_epi8(__k));
3532	else if constexpr (__have_avx512bw)
3533	return __vector_bitcast<_Up>(__lo256(_mm512_movm_epi8(__k)));
3534	else if constexpr (__have_avx512f)
3535	{
3536	auto __as16bits = // 0 16 1 17 ... 15 31
3537	_mm512_srli_epi32(_mm512_maskz_mov_epi32(__k, ~__m512i()),
3538	16)
3539	\| _mm512_slli_epi32(_mm512_maskz_mov_epi32(__k >> 16,
3540	~__m512i()),
3541	16);
3542	auto __0_16_1_17 = __xzyw(_mm256_packs_epi16(
3543	__lo256(__as16bits),
3544	__hi256(__as16bits)) // 0 16 1 17 2 18 3 19 8 24 9 25 ...
3545	);
3546	// deinterleave:
3547	return __vector_bitcast<_Up>(__xzyw(_mm256_shuffle_epi8(
3548	__0_16_1_17, // 0 16 1 17 2 ...
3549	_mm256_setr_epi8(0, 2, 4, 6, 8, 10, 12, 14, 1, 3, 5, 7, 9,
3550	11, 13, 15, 0, 2, 4, 6, 8, 10, 12, 14, 1,
3551	3, 5, 7, 9, 11, 13,
3552	15)))); // 0-7 16-23 8-15 24-31 -> xzyw
3553	// 0-3 8-11 16-19 24-27
3554	// 4-7 12-15 20-23 28-31
3555	}
3556	else if constexpr (__have_avx2)
3557	{
3558	const auto __bitmask
3559	= _mm256_broadcastsi128_si256(__to_intrin(
3560	__make_vector<_UChar>(1, 2, 4, 8, 16, 32, 64, 128, 1, 2,
3561	4, 8, 16, 32, 64, 128)));
3562	return __vector_bitcast<_Up>(
3563	__vector_bitcast<_Up>(
3564	_mm256_shuffle_epi8(
3565	_mm256_broadcastsi128_si256(
3566	__to_intrin(__vector_type_t<_ULLong, 2>{__k})),
3567	_mm256_setr_epi8(0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1,
3568	1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3,
3569	3, 3, 3, 3, 3, 3))
3570	& __bitmask)
3571	!= 0);
3572	}
3573	// else fall through
3574	}
3575	else if constexpr (sizeof(_UI) == 64)
3576	return reinterpret_cast<_UV>(_mm512_movm_epi8(__k));
3577	if constexpr (std::min(_ToN, _Np) <= 4)
3578	{
3579	if constexpr (_Np > 7) // avoid overflow
3580	__x &= _SanitizedBitMask<_Np>(0x0f);
3581	const _UInt __char_mask
3582	= ((_UInt(__x.to_ulong()) * 0x00204081U) & 0x01010101ULL)
3583	* 0xff;
3584	_UV __r = {};
3585	__builtin_memcpy(&__r, &__char_mask,
3586	std::min(sizeof(__r), sizeof(__char_mask)));
3587	return __r;
3588	}
3589	else if constexpr (std::min(_ToN, _Np) <= 7)
3590	{
3591	if constexpr (_Np > 7) // avoid overflow
3592	__x &= _SanitizedBitMask<_Np>(0x7f);
3593	const _ULLong __char_mask
3594	= ((__x.to_ulong() * 0x40810204081ULL) & 0x0101010101010101ULL)
3595	* 0xff;
3596	_UV __r = {};
3597	__builtin_memcpy(&__r, &__char_mask,
3598	std::min(sizeof(__r), sizeof(__char_mask)));
3599	return __r;
3600	}
3601	}
3602	else if constexpr (sizeof(_Up) == 2)
3603	{
3604	if constexpr (sizeof(_UI) == 16)
3605	{
3606	if constexpr (__have_avx512bw_vl)
3607	return __intrin_bitcast<_UV>(_mm_movm_epi16(__k));
3608	else if constexpr (__have_avx512bw)
3609	return __intrin_bitcast<_UV>(__lo128(_mm512_movm_epi16(__k)));
3610	else if constexpr (__have_avx512f)
3611	{
3612	__m256i __as32bits = {};
3613	if constexpr (__have_avx512vl)
3614	__as32bits = _mm256_maskz_mov_epi32(__k, ~__m256i());
3615	else
3616	__as32bits
3617	= __lo256(_mm512_maskz_mov_epi32(__k, ~__m512i()));
3618	return __intrin_bitcast<_UV>(
3619	_mm_packs_epi32(__lo128(__as32bits), __hi128(__as32bits)));
3620	}
3621	// else fall through
3622	}
3623	else if constexpr (sizeof(_UI) == 32)
3624	{
3625	if constexpr (__have_avx512bw_vl)
3626	return __vector_bitcast<_Up>(_mm256_movm_epi16(__k));
3627	else if constexpr (__have_avx512bw)
3628	return __vector_bitcast<_Up>(__lo256(_mm512_movm_epi16(__k)));
3629	else if constexpr (__have_avx512f)
3630	{
3631	auto __as32bits = _mm512_maskz_mov_epi32(__k, ~__m512i());
3632	return __vector_bitcast<_Up>(
3633	__xzyw(_mm256_packs_epi32(__lo256(__as32bits),
3634	__hi256(__as32bits))));
3635	}
3636	// else fall through
3637	}
3638	else if constexpr (sizeof(_UI) == 64)
3639	return __vector_bitcast<_Up>(_mm512_movm_epi16(__k));
3640	}
3641	else if constexpr (sizeof(_Up) == 4)
3642	{
3643	if constexpr (sizeof(_UI) == 16)
3644	{
3645	if constexpr (__have_avx512dq_vl)
3646	return __intrin_bitcast<_UV>(_mm_movm_epi32(__k));
3647	else if constexpr (__have_avx512dq)
3648	return __intrin_bitcast<_UV>(__lo128(_mm512_movm_epi32(__k)));
3649	else if constexpr (__have_avx512vl)
3650	return __intrin_bitcast<_UV>(
3651	_mm_maskz_mov_epi32(__k, ~__m128i()));
3652	else if constexpr (__have_avx512f)
3653	return __intrin_bitcast<_UV>(
3654	__lo128(_mm512_maskz_mov_epi32(__k, ~__m512i())));
3655	// else fall through
3656	}
3657	else if constexpr (sizeof(_UI) == 32)
3658	{
3659	if constexpr (__have_avx512dq_vl)
3660	return __vector_bitcast<_Up>(_mm256_movm_epi32(__k));
3661	else if constexpr (__have_avx512dq)
3662	return __vector_bitcast<_Up>(__lo256(_mm512_movm_epi32(__k)));
3663	else if constexpr (__have_avx512vl)
3664	return __vector_bitcast<_Up>(
3665	_mm256_maskz_mov_epi32(__k, ~__m256i()));
3666	else if constexpr (__have_avx512f)
3667	return __vector_bitcast<_Up>(
3668	__lo256(_mm512_maskz_mov_epi32(__k, ~__m512i())));
3669	// else fall through
3670	}
3671	else if constexpr (sizeof(_UI) == 64)
3672	return __vector_bitcast<_Up>(
3673	__have_avx512dq ? _mm512_movm_epi32(__k)
3674	: _mm512_maskz_mov_epi32(__k, ~__m512i()));
3675	}
3676	else if constexpr (sizeof(_Up) == 8)
3677	{
3678	if constexpr (sizeof(_UI) == 16)
3679	{
3680	if constexpr (__have_avx512dq_vl)
3681	return __vector_bitcast<_Up>(_mm_movm_epi64(__k));
3682	else if constexpr (__have_avx512dq)
3683	return __vector_bitcast<_Up>(__lo128(_mm512_movm_epi64(__k)));
3684	else if constexpr (__have_avx512vl)
3685	return __vector_bitcast<_Up>(
3686	_mm_maskz_mov_epi64(__k, ~__m128i()));
3687	else if constexpr (__have_avx512f)
3688	return __vector_bitcast<_Up>(
3689	__lo128(_mm512_maskz_mov_epi64(__k, ~__m512i())));
3690	// else fall through
3691	}
3692	else if constexpr (sizeof(_UI) == 32)
3693	{
3694	if constexpr (__have_avx512dq_vl)
3695	return __vector_bitcast<_Up>(_mm256_movm_epi64(__k));
3696	else if constexpr (__have_avx512dq)
3697	return __vector_bitcast<_Up>(__lo256(_mm512_movm_epi64(__k)));
3698	else if constexpr (__have_avx512vl)
3699	return __vector_bitcast<_Up>(
3700	_mm256_maskz_mov_epi64(__k, ~__m256i()));
3701	else if constexpr (__have_avx512f)
3702	return __vector_bitcast<_Up>(
3703	__lo256(_mm512_maskz_mov_epi64(__k, ~__m512i())));
3704	// else fall through
3705	}
3706	else if constexpr (sizeof(_UI) == 64)
3707	return __vector_bitcast<_Up>(
3708	__have_avx512dq ? _mm512_movm_epi64(__k)
3709	: _mm512_maskz_mov_epi64(__k, ~__m512i()));
3710	}
3711
3712	using _UpUInt = make_unsigned_t<_Up>;
3713	using _V = __vector_type_t<_UpUInt, _ToN>;
3714	constexpr size_t __bits_per_element = sizeof(_Up) * __CHAR_BIT__;
3715	if constexpr (_ToN == 2)
3716	{
3717	return __vector_bitcast<_Up>(_V{_UpUInt(-__x[0]), _UpUInt(-__x[1])});
3718	}
3719	else if constexpr (!__have_avx2 && __have_avx && sizeof(_V) == 32)
3720	{
3721	if constexpr (sizeof(_Up) == 4)
3722	return __vector_bitcast<_Up>(_mm256_cmp_ps(
3723	_mm256_and_ps(_mm256_castsi256_ps(_mm256_set1_epi32(__k)),
3724	_mm256_castsi256_ps(_mm256_setr_epi32(
3725	0x01, 0x02, 0x04, 0x08, 0x10, 0x20, 0x40, 0x80))),
3726	_mm256_setzero_ps(), _CMP_NEQ_UQ));
3727	else if constexpr (sizeof(_Up) == 8)
3728	return __vector_bitcast<_Up>(_mm256_cmp_pd(
3729	_mm256_and_pd(_mm256_castsi256_pd(_mm256_set1_epi64x(__k)),
3730	_mm256_castsi256_pd(
3731	_mm256_setr_epi64x(0x01, 0x02, 0x04, 0x08))),
3732	_mm256_setzero_pd(), _CMP_NEQ_UQ));
3733	else
3734	__assert_unreachable<_Up>();
3735	}
3736	else if constexpr (__bits_per_element >= _ToN)
3737	{
3738	constexpr auto __bitmask
3739	= __generate_vector<_V>([](auto __i) constexpr->_UpUInt {
3740	return __i < _ToN ? 1ull << __i : 0;
3741	});
3742	const auto __bits
3743	= __vector_broadcast<_ToN, _UpUInt>(__k) & __bitmask;
3744	if constexpr (__bits_per_element > _ToN)
3745	return __vector_bitcast<_Up>(__bits) > 0;
3746	else
3747	return __vector_bitcast<_Up>(__bits != 0);
3748	}
3749	else
3750	{
3751	const _V __tmp
3752	= __generate_vector<_V>([&](auto __i) constexpr {
3753	return static_cast<_UpUInt>(
3754	__k >> (__bits_per_element * (__i / __bits_per_element)));
3755	})
3756	& __generate_vector<_V>([](auto __i) constexpr {
3757	return static_cast<_UpUInt>(1ull
3758	<< (__i % __bits_per_element));
3759	}); // mask bit index
3760	return __intrin_bitcast<_UV>(__tmp != _V());
3761	}
3762	}
3763
3764	// }}}
3765	// _S_to_maskvector(_SimdWrapper) {{{
3766	template <typename _Up, size_t _UpN = 0, typename _Tp, size_t _Np,
3767	size_t _ToN = _UpN == 0 ? _Np : _UpN>
3768	_GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Up, _ToN>
3769	_S_to_maskvector(_SimdWrapper<_Tp, _Np> __x)
3770	{
3771	static_assert(is_same_v<_Up, __int_for_sizeof_t<_Up>>);
3772	using _TW = _SimdWrapper<_Tp, _Np>;
3773	using _UW = _SimdWrapper<_Up, _ToN>;
3774	using _UI = __intrinsic_type_t<_Up, _ToN>;
3775	if constexpr (is_same_v<_Tp, bool>) // bits -> vector
3776	return _S_to_maskvector<_Up, _ToN>(
3777	_BitMask<_Np>(__x._M_data)._M_sanitized());
3778	// vector -> vector bitcast
3779	else if constexpr (sizeof(_Up) == sizeof(_Tp)
3780	&& sizeof(_TW) == sizeof(_UW))
3781	return __wrapper_bitcast<_Up, _ToN>(
3782	_ToN <= _Np
3783	? __x
3784	: simd_abi::_VecBuiltin<sizeof(_Tp) * _Np>::_S_masked(__x));
3785	else // vector -> vector {{{
3786	{
3787	if (__x._M_is_constprop() \|\| __builtin_is_constant_evaluated())
3788	{
3789	const auto __y = __vector_bitcast<__int_for_sizeof_t<_Tp>>(__x);
3790	return __generate_from_n_evaluations<std::min(_ToN, _Np),
3791	__vector_type_t<_Up, _ToN>>(
3792	[&](auto __i) -> _Up { return __y[__i.value]; });
3793	}
3794	using _To = __vector_type_t<_Up, _ToN>;
3795	[[maybe_unused]] constexpr size_t _FromN = _Np;
3796	constexpr int _FromBytes = sizeof(_Tp);
3797	constexpr int _ToBytes = sizeof(_Up);
3798	const auto __k = __x._M_data;
3799
3800	if constexpr (_FromBytes == _ToBytes)
3801	return __intrin_bitcast<_To>(__k);
3802	else if constexpr (sizeof(_UI) == 16 && sizeof(__k) == 16)
3803	{ // SSE -> SSE {{{
3804	if constexpr (_FromBytes == 4 && _ToBytes == 8)
3805	return __intrin_bitcast<_To>(__interleave128_lo(__k, __k));
3806	else if constexpr (_FromBytes == 2 && _ToBytes == 8)
3807	{
3808	const auto __y
3809	= __vector_bitcast<int>(__interleave128_lo(__k, __k));
3810	return __intrin_bitcast<_To>(__interleave128_lo(__y, __y));
3811	}
3812	else if constexpr (_FromBytes == 1 && _ToBytes == 8)
3813	{
3814	auto __y
3815	= __vector_bitcast<short>(__interleave128_lo(__k, __k));
3816	auto __z
3817	= __vector_bitcast<int>(__interleave128_lo(__y, __y));
3818	return __intrin_bitcast<_To>(__interleave128_lo(__z, __z));
3819	}
3820	else if constexpr (_FromBytes == 8 && _ToBytes == 4
3821	&& __have_sse2)
3822	return __intrin_bitcast<_To>(
3823	_mm_packs_epi32(__vector_bitcast<_LLong>(__k), __m128i()));
3824	else if constexpr (_FromBytes == 8 && _ToBytes == 4)
3825	return __vector_shuffle<1, 3, 6, 7>(__vector_bitcast<_Up>(__k),
3826	_UI());
3827	else if constexpr (_FromBytes == 2 && _ToBytes == 4)
3828	return __intrin_bitcast<_To>(__interleave128_lo(__k, __k));
3829	else if constexpr (_FromBytes == 1 && _ToBytes == 4)
3830	{
3831	const auto __y
3832	= __vector_bitcast<short>(__interleave128_lo(__k, __k));
3833	return __intrin_bitcast<_To>(__interleave128_lo(__y, __y));
3834	}
3835	else if constexpr (_FromBytes == 8 && _ToBytes == 2)
3836	{
3837	if constexpr (__have_sse2 && !__have_ssse3)
3838	return __intrin_bitcast<_To>(_mm_packs_epi32(
3839	_mm_packs_epi32(__vector_bitcast<_LLong>(__k), __m128i()),
3840	__m128i()));
3841	else
3842	return __intrin_bitcast<_To>(
3843	__vector_permute<3, 7, -1, -1, -1, -1, -1, -1>(
3844	__vector_bitcast<_Up>(__k)));
3845	}
3846	else if constexpr (_FromBytes == 4 && _ToBytes == 2)
3847	return __intrin_bitcast<_To>(
3848	_mm_packs_epi32(__vector_bitcast<_LLong>(__k), __m128i()));
3849	else if constexpr (_FromBytes == 1 && _ToBytes == 2)
3850	return __intrin_bitcast<_To>(__interleave128_lo(__k, __k));
3851	else if constexpr (_FromBytes == 8 && _ToBytes == 1
3852	&& __have_ssse3)
3853	return __intrin_bitcast<_To>(
3854	_mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
3855	_mm_setr_epi8(7, 15, -1, -1, -1, -1, -1, -1,
3856	-1, -1, -1, -1, -1, -1, -1,
3857	-1)));
3858	else if constexpr (_FromBytes == 8 && _ToBytes == 1)
3859	{
3860	auto __y
3861	= _mm_packs_epi32(__vector_bitcast<_LLong>(__k), __m128i());
3862	__y = _mm_packs_epi32(__y, __m128i());
3863	return __intrin_bitcast<_To>(_mm_packs_epi16(__y, __m128i()));
3864	}
3865	else if constexpr (_FromBytes == 4 && _ToBytes == 1
3866	&& __have_ssse3)
3867	return __intrin_bitcast<_To>(
3868	_mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
3869	_mm_setr_epi8(3, 7, 11, 15, -1, -1, -1, -1,
3870	-1, -1, -1, -1, -1, -1, -1,
3871	-1)));
3872	else if constexpr (_FromBytes == 4 && _ToBytes == 1)
3873	{
3874	const auto __y
3875	= _mm_packs_epi32(__vector_bitcast<_LLong>(__k), __m128i());
3876	return __intrin_bitcast<_To>(_mm_packs_epi16(__y, __m128i()));
3877	}
3878	else if constexpr (_FromBytes == 2 && _ToBytes == 1)
3879	return __intrin_bitcast<_To>(
3880	_mm_packs_epi16(__vector_bitcast<_LLong>(__k), __m128i()));
3881	else
3882	__assert_unreachable<_Tp>();
3883	} // }}}
3884	else if constexpr (sizeof(_UI) == 32 && sizeof(__k) == 32)
3885	{ // AVX -> AVX {{{
3886	if constexpr (_FromBytes == _ToBytes)
3887	__assert_unreachable<_Tp>();
3888	else if constexpr (_FromBytes == _ToBytes * 2)
3889	{
3890	const auto __y = __vector_bitcast<_LLong>(__k);
3891	return __intrin_bitcast<_To>(_mm256_castsi128_si256(
3892	_mm_packs_epi16(__lo128(__y), __hi128(__y))));
3893	}
3894	else if constexpr (_FromBytes == _ToBytes * 4)
3895	{
3896	const auto __y = __vector_bitcast<_LLong>(__k);
3897	return __intrin_bitcast<_To>(_mm256_castsi128_si256(
3898	_mm_packs_epi16(_mm_packs_epi16(__lo128(__y), __hi128(__y)),
3899	__m128i())));
3900	}
3901	else if constexpr (_FromBytes == _ToBytes * 8)
3902	{
3903	const auto __y = __vector_bitcast<_LLong>(__k);
3904	return __intrin_bitcast<_To>(
3905	_mm256_castsi128_si256(_mm_shuffle_epi8(
3906	_mm_packs_epi16(__lo128(__y), __hi128(__y)),
3907	_mm_setr_epi8(3, 7, 11, 15, -1, -1, -1, -1, -1, -1, -1,
3908	-1, -1, -1, -1, -1))));
3909	}
3910	else if constexpr (_FromBytes * 2 == _ToBytes)
3911	{
3912	auto __y = __xzyw(__to_intrin(__k));
3913	if constexpr (is_floating_point_v<
3914	_Tp> \|\| (!__have_avx2 && _FromBytes == 4))
3915	{
3916	const auto __yy = __vector_bitcast<float>(__y);
3917	return __intrin_bitcast<_To>(
3918	_mm256_unpacklo_ps(__yy, __yy));
3919	}
3920	else
3921	return __intrin_bitcast<_To>(
3922	_mm256_unpacklo_epi8(__y, __y));
3923	}
3924	else if constexpr (_FromBytes * 4 == _ToBytes)
3925	{
3926	auto __y
3927	= _mm_unpacklo_epi8(__lo128(__vector_bitcast<_LLong>(__k)),
3928	__lo128(__vector_bitcast<_LLong>(
3929	__k))); // drops 3/4 of input
3930	return __intrin_bitcast<_To>(
3931	__concat(_mm_unpacklo_epi16(__y, __y),
3932	_mm_unpackhi_epi16(__y, __y)));
3933	}
3934	else if constexpr (_FromBytes == 1 && _ToBytes == 8)
3935	{
3936	auto __y
3937	= _mm_unpacklo_epi8(__lo128(__vector_bitcast<_LLong>(__k)),
3938	__lo128(__vector_bitcast<_LLong>(
3939	__k))); // drops 3/4 of input
3940	__y
3941	= _mm_unpacklo_epi16(__y,
3942	__y); // drops another 1/2 => 7/8 total
3943	return __intrin_bitcast<_To>(
3944	__concat(_mm_unpacklo_epi32(__y, __y),
3945	_mm_unpackhi_epi32(__y, __y)));
3946	}
3947	else
3948	__assert_unreachable<_Tp>();
3949	} // }}}
3950	else if constexpr (sizeof(_UI) == 32 && sizeof(__k) == 16)
3951	{ // SSE -> AVX {{{
3952	if constexpr (_FromBytes == _ToBytes)
3953	return __intrin_bitcast<_To>(
3954	__intrinsic_type_t<_Tp, 32 / sizeof(_Tp)>(
3955	__zero_extend(__to_intrin(__k))));
3956	else if constexpr (_FromBytes * 2 == _ToBytes)
3957	{ // keep all
3958	return __intrin_bitcast<_To>(
3959	__concat(_mm_unpacklo_epi8(__vector_bitcast<_LLong>(__k),
3960	__vector_bitcast<_LLong>(__k)),
3961	_mm_unpackhi_epi8(__vector_bitcast<_LLong>(__k),
3962	__vector_bitcast<_LLong>(__k))));
3963	}
3964	else if constexpr (_FromBytes * 4 == _ToBytes)
3965	{
3966	if constexpr (__have_avx2)
3967	{
3968	return __intrin_bitcast<_To>(_mm256_shuffle_epi8(
3969	__concat(__vector_bitcast<_LLong>(__k),
3970	__vector_bitcast<_LLong>(__k)),
3971	_mm256_setr_epi8(0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 3,
3972	3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6,
3973	6, 6, 7, 7, 7, 7)));
3974	}
3975	else
3976	{
3977	return __intrin_bitcast<_To>(__concat(
3978	_mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
3979	_mm_setr_epi8(0, 0, 0, 0, 1, 1, 1, 1,
3980	2, 2, 2, 2, 3, 3, 3, 3)),
3981	_mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
3982	_mm_setr_epi8(4, 4, 4, 4, 5, 5, 5, 5,
3983	6, 6, 6, 6, 7, 7, 7,
3984	7))));
3985	}
3986	}
3987	else if constexpr (_FromBytes * 8 == _ToBytes)
3988	{
3989	if constexpr (__have_avx2)
3990	{
3991	return __intrin_bitcast<_To>(_mm256_shuffle_epi8(
3992	__concat(__vector_bitcast<_LLong>(__k),
3993	__vector_bitcast<_LLong>(__k)),
3994	_mm256_setr_epi8(0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1,
3995	1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3,
3996	3, 3, 3, 3, 3, 3)));
3997	}
3998	else
3999	{
4000	return __intrin_bitcast<_To>(__concat(
4001	_mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
4002	_mm_setr_epi8(0, 0, 0, 0, 0, 0, 0, 0,
4003	1, 1, 1, 1, 1, 1, 1, 1)),
4004	_mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
4005	_mm_setr_epi8(2, 2, 2, 2, 2, 2, 2, 2,
4006	3, 3, 3, 3, 3, 3, 3,
4007	3))));
4008	}
4009	}
4010	else if constexpr (_FromBytes == _ToBytes * 2)
4011	return __intrin_bitcast<_To>(__m256i(__zero_extend(
4012	_mm_packs_epi16(__vector_bitcast<_LLong>(__k), __m128i()))));
4013	else if constexpr (_FromBytes == 8 && _ToBytes == 2)
4014	{
4015	return __intrin_bitcast<_To>(__m256i(__zero_extend(
4016	_mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
4017	_mm_setr_epi8(6, 7, 14, 15, -1, -1, -1, -1,
4018	-1, -1, -1, -1, -1, -1, -1,
4019	-1)))));
4020	}
4021	else if constexpr (_FromBytes == 4 && _ToBytes == 1)
4022	{
4023	return __intrin_bitcast<_To>(__m256i(__zero_extend(
4024	_mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
4025	_mm_setr_epi8(3, 7, 11, 15, -1, -1, -1, -1,
4026	-1, -1, -1, -1, -1, -1, -1,
4027	-1)))));
4028	}
4029	else if constexpr (_FromBytes == 8 && _ToBytes == 1)
4030	{
4031	return __intrin_bitcast<_To>(__m256i(__zero_extend(
4032	_mm_shuffle_epi8(__vector_bitcast<_LLong>(__k),
4033	_mm_setr_epi8(7, 15, -1, -1, -1, -1, -1,
4034	-1, -1, -1, -1, -1, -1, -1,
4035	-1, -1)))));
4036	}
4037	else
4038	static_assert(!is_same_v<_Tp, _Tp>, "should be unreachable");
4039	} // }}}
4040	else if constexpr (sizeof(_UI) == 16 && sizeof(__k) == 32)
4041	{ // AVX -> SSE {{{
4042	if constexpr (_FromBytes == _ToBytes)
4043	{ // keep low 1/2
4044	return __intrin_bitcast<_To>(__lo128(__k));
4045	}
4046	else if constexpr (_FromBytes == _ToBytes * 2)
4047	{ // keep all
4048	auto __y = __vector_bitcast<_LLong>(__k);
4049	return __intrin_bitcast<_To>(
4050	_mm_packs_epi16(__lo128(__y), __hi128(__y)));
4051	}
4052	else if constexpr (_FromBytes == _ToBytes * 4)
4053	{ // add 1/2 undef
4054	auto __y = __vector_bitcast<_LLong>(__k);
4055	return __intrin_bitcast<_To>(
4056	_mm_packs_epi16(_mm_packs_epi16(__lo128(__y), __hi128(__y)),
4057	__m128i()));
4058	}
4059	else if constexpr (_FromBytes == 8 && _ToBytes == 1)
4060	{ // add 3/4 undef
4061	auto __y = __vector_bitcast<_LLong>(__k);
4062	return __intrin_bitcast<_To>(_mm_shuffle_epi8(
4063	_mm_packs_epi16(__lo128(__y), __hi128(__y)),
4064	_mm_setr_epi8(3, 7, 11, 15, -1, -1, -1, -1, -1, -1, -1, -1,
4065	-1, -1, -1, -1)));
4066	}
4067	else if constexpr (_FromBytes * 2 == _ToBytes)
4068	{ // keep low 1/4
4069	auto __y = __lo128(__vector_bitcast<_LLong>(__k));
4070	return __intrin_bitcast<_To>(_mm_unpacklo_epi8(__y, __y));
4071	}
4072	else if constexpr (_FromBytes * 4 == _ToBytes)
4073	{ // keep low 1/8
4074	auto __y = __lo128(__vector_bitcast<_LLong>(__k));
4075	__y = _mm_unpacklo_epi8(__y, __y);
4076	return __intrin_bitcast<_To>(_mm_unpacklo_epi8(__y, __y));
4077	}
4078	else if constexpr (_FromBytes * 8 == _ToBytes)
4079	{ // keep low 1/16
4080	auto __y = __lo128(__vector_bitcast<_LLong>(__k));
4081	__y = _mm_unpacklo_epi8(__y, __y);
4082	__y = _mm_unpacklo_epi8(__y, __y);
4083	return __intrin_bitcast<_To>(_mm_unpacklo_epi8(__y, __y));
4084	}
4085	else
4086	static_assert(!is_same_v<_Tp, _Tp>, "should be unreachable");
4087	} // }}}
4088	else
4089	return _Base::template _S_to_maskvector<_Up, _ToN>(__x);
4090	/*
4091	if constexpr (_FromBytes > _ToBytes) {
4092	const _To __y = __vector_bitcast<_Up>(__k);
4093	return [&] <size_t... _Is> (index_sequence<_Is...>) {
4094	constexpr int _Stride = _FromBytes / _ToBytes;
4095	return _To{__y[(_Is + 1) * _Stride - 1]...};
4096	}(make_index_sequence<std::min(_ToN, _FromN)>());
4097	} else {
4098	// {0, 0, 1, 1} (_Dups = 2, _Is<4>)
4099	// {0, 0, 0, 0, 1, 1, 1, 1} (_Dups = 4, _Is<8>)
4100	// {0, 0, 1, 1, 2, 2, 3, 3} (_Dups = 2, _Is<8>)
4101	// ...
4102	return [&] <size_t... _Is> (index_sequence<_Is...>) {
4103	constexpr int __dup = _ToBytes / _FromBytes;
4104	return __intrin_bitcast<_To>(_From{__k[_Is / __dup]...});
4105	}(make_index_sequence<_FromN>());
4106	}
4107	*/
4108	} // }}}
4109	}
4110
4111	// }}}
4112	// _S_to_bits {{{
4113	template <typename _Tp, size_t _Np>
4114	_GLIBCXX_SIMD_INTRINSIC static constexpr _SanitizedBitMask<_Np>
4115	_S_to_bits(_SimdWrapper<_Tp, _Np> __x)
4116	{
4117	if constexpr (is_same_v<_Tp, bool>)
4118	return _BitMask<_Np>(__x._M_data)._M_sanitized();
4119	else
4120	{
4121	static_assert(is_same_v<_Tp, __int_for_sizeof_t<_Tp>>);
4122	if (__builtin_is_constant_evaluated()
4123	\|\| __builtin_constant_p(__x._M_data))
4124	{
4125	const auto __bools = -__x._M_data;
4126	const _ULLong __k = __call_with_n_evaluations<_Np>(
4127	[](auto... __bits) { return (__bits \| ...); },
4128	[&](auto __i) { return _ULLong(__bools[+__i]) << __i; });
4129	if (__builtin_is_constant_evaluated()
4130	\|\| __builtin_constant_p(__k))
4131	return __k;
4132	}
4133	const auto __xi = __to_intrin(__x);
4134	if constexpr (sizeof(_Tp) == 1)
4135	if constexpr (sizeof(__xi) == 16)
4136	if constexpr (__have_avx512bw_vl)
4137	return _BitMask<_Np>(_mm_movepi8_mask(__xi));
4138	else // implies SSE2
4139	return _BitMask<_Np>(_mm_movemask_epi8(__xi));
4140	else if constexpr (sizeof(__xi) == 32)
4141	if constexpr (__have_avx512bw_vl)
4142	return _BitMask<_Np>(_mm256_movepi8_mask(__xi));
4143	else // implies AVX2
4144	return _BitMask<_Np>(_mm256_movemask_epi8(__xi));
4145	else // implies AVX512BW
4146	return _BitMask<_Np>(_mm512_movepi8_mask(__xi));
4147
4148	else if constexpr (sizeof(_Tp) == 2)
4149	if constexpr (sizeof(__xi) == 16)
4150	if constexpr (__have_avx512bw_vl)
4151	return _BitMask<_Np>(_mm_movepi16_mask(__xi));
4152	else if constexpr (__have_avx512bw)
4153	return _BitMask<_Np>(_mm512_movepi16_mask(__zero_extend(__xi)));
4154	else // implies SSE2
4155	return _BitMask<_Np>(
4156	_mm_movemask_epi8(_mm_packs_epi16(__xi, __m128i())));
4157	else if constexpr (sizeof(__xi) == 32)
4158	if constexpr (__have_avx512bw_vl)
4159	return _BitMask<_Np>(_mm256_movepi16_mask(__xi));
4160	else if constexpr (__have_avx512bw)
4161	return _BitMask<_Np>(_mm512_movepi16_mask(__zero_extend(__xi)));
4162	else // implies SSE2
4163	return _BitMask<_Np>(_mm_movemask_epi8(
4164	_mm_packs_epi16(__lo128(__xi), __hi128(__xi))));
4165	else // implies AVX512BW
4166	return _BitMask<_Np>(_mm512_movepi16_mask(__xi));
4167
4168	else if constexpr (sizeof(_Tp) == 4)
4169	if constexpr (sizeof(__xi) == 16)
4170	if constexpr (__have_avx512dq_vl)
4171	return _BitMask<_Np>(_mm_movepi32_mask(__xi));
4172	else if constexpr (__have_avx512vl)
4173	return _BitMask<_Np>(_mm_cmplt_epi32_mask(__xi, __m128i()));
4174	else if constexpr (__have_avx512dq)
4175	return _BitMask<_Np>(_mm512_movepi32_mask(__zero_extend(__xi)));
4176	else if constexpr (__have_avx512f)
4177	return _BitMask<_Np>(
4178	_mm512_cmplt_epi32_mask(__zero_extend(__xi), __m512i()));
4179	else // implies SSE
4180	return _BitMask<_Np>(
4181	_mm_movemask_ps(reinterpret_cast<__m128>(__xi)));
4182	else if constexpr (sizeof(__xi) == 32)
4183	if constexpr (__have_avx512dq_vl)
4184	return _BitMask<_Np>(_mm256_movepi32_mask(__xi));
4185	else if constexpr (__have_avx512dq)
4186	return _BitMask<_Np>(_mm512_movepi32_mask(__zero_extend(__xi)));
4187	else if constexpr (__have_avx512vl)
4188	return _BitMask<_Np>(_mm256_cmplt_epi32_mask(__xi, __m256i()));
4189	else if constexpr (__have_avx512f)
4190	return _BitMask<_Np>(
4191	_mm512_cmplt_epi32_mask(__zero_extend(__xi), __m512i()));
4192	else // implies AVX
4193	return _BitMask<_Np>(
4194	_mm256_movemask_ps(reinterpret_cast<__m256>(__xi)));
4195	else // implies AVX512??
4196	if constexpr (__have_avx512dq)
4197	return _BitMask<_Np>(_mm512_movepi32_mask(__xi));
4198	else // implies AVX512F
4199	return _BitMask<_Np>(_mm512_cmplt_epi32_mask(__xi, __m512i()));
4200
4201	else if constexpr (sizeof(_Tp) == 8)
4202	if constexpr (sizeof(__xi) == 16)
4203	if constexpr (__have_avx512dq_vl)
4204	return _BitMask<_Np>(_mm_movepi64_mask(__xi));
4205	else if constexpr (__have_avx512dq)
4206	return _BitMask<_Np>(_mm512_movepi64_mask(__zero_extend(__xi)));
4207	else if constexpr (__have_avx512vl)
4208	return _BitMask<_Np>(_mm_cmplt_epi64_mask(__xi, __m128i()));
4209	else if constexpr (__have_avx512f)
4210	return _BitMask<_Np>(
4211	_mm512_cmplt_epi64_mask(__zero_extend(__xi), __m512i()));
4212	else // implies SSE2
4213	return _BitMask<_Np>(
4214	_mm_movemask_pd(reinterpret_cast<__m128d>(__xi)));
4215	else if constexpr (sizeof(__xi) == 32)
4216	if constexpr (__have_avx512dq_vl)
4217	return _BitMask<_Np>(_mm256_movepi64_mask(__xi));
4218	else if constexpr (__have_avx512dq)
4219	return _BitMask<_Np>(_mm512_movepi64_mask(__zero_extend(__xi)));
4220	else if constexpr (__have_avx512vl)
4221	return _BitMask<_Np>(_mm256_cmplt_epi64_mask(__xi, __m256i()));
4222	else if constexpr (__have_avx512f)
4223	return _BitMask<_Np>(
4224	_mm512_cmplt_epi64_mask(__zero_extend(__xi), __m512i()));
4225	else // implies AVX
4226	return _BitMask<_Np>(
4227	_mm256_movemask_pd(reinterpret_cast<__m256d>(__xi)));
4228	else // implies AVX512??
4229	if constexpr (__have_avx512dq)
4230	return _BitMask<_Np>(_mm512_movepi64_mask(__xi));
4231	else // implies AVX512F
4232	return _BitMask<_Np>(_mm512_cmplt_epi64_mask(__xi, __m512i()));
4233
4234	else
4235	__assert_unreachable<_Tp>();
4236	}
4237	}
4238	// }}}
4239	};
4240
4241	// }}}
4242	// _MaskImplX86 {{{
4243	template <typename _Abi>
4244	struct _MaskImplX86 : _MaskImplX86Mixin, _MaskImplBuiltin<_Abi>
4245	{
4246	using _MaskImplX86Mixin::_S_to_bits;
4247	using _MaskImplX86Mixin::_S_to_maskvector;
4248	using _MaskImplBuiltin<_Abi>::_S_convert;
4249
4250	// member types {{{
4251	template <typename _Tp>
4252	using _SimdMember = typename _Abi::template __traits<_Tp>::_SimdMember;
4253
4254	template <typename _Tp>
4255	using _MaskMember = typename _Abi::template _MaskMember<_Tp>;
4256
4257	template <typename _Tp>
4258	static constexpr size_t _S_size = simd_size_v<_Tp, _Abi>;
4259
4260	using _Base = _MaskImplBuiltin<_Abi>;
4261
4262	// }}}
4263	// _S_broadcast {{{
4264	template <typename _Tp>
4265	_GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
4266	_S_broadcast(bool __x)
4267	{
4268	if constexpr (__is_avx512_abi<_Abi>())
4269	return __x ? _Abi::_S_masked(_MaskMember<_Tp>(-1))
4270	: _MaskMember<_Tp>();
4271	else
4272	return _Base::template _S_broadcast<_Tp>(__x);
4273	}
4274
4275	// }}}
4276	// _S_load {{{
4277	template <typename _Tp>
4278	_GLIBCXX_SIMD_INTRINSIC static constexpr _MaskMember<_Tp>
4279	_S_load(const bool* __mem)
4280	{
4281	static_assert(is_same_v<_Tp, __int_for_sizeof_t<_Tp>>);
4282	if constexpr (__have_avx512bw)
4283	{
4284	const auto __to_vec_or_bits = [](auto __bits) -> decltype(auto) {
4285	if constexpr (__is_avx512_abi<_Abi>())
4286	return __bits;
4287	else
4288	return _S_to_maskvector<_Tp>(
4289	_BitMask<_S_size<_Tp>>(__bits)._M_sanitized());
4290	};
4291
4292	if constexpr (_S_size<_Tp> <= 16 && __have_avx512vl)
4293	{
4294	__m128i __a = {};
4295	__builtin_memcpy(&__a, __mem, _S_size<_Tp>);
4296	return __to_vec_or_bits(_mm_test_epi8_mask(__a, __a));
4297	}
4298	else if constexpr (_S_size<_Tp> <= 32 && __have_avx512vl)
4299	{
4300	__m256i __a = {};
4301	__builtin_memcpy(&__a, __mem, _S_size<_Tp>);
4302	return __to_vec_or_bits(_mm256_test_epi8_mask(__a, __a));
4303	}
4304	else if constexpr (_S_size<_Tp> <= 64)
4305	{
4306	__m512i __a = {};
4307	__builtin_memcpy(&__a, __mem, _S_size<_Tp>);
4308	return __to_vec_or_bits(_mm512_test_epi8_mask(__a, __a));
4309	}
4310	}
4311	else if constexpr (__is_avx512_abi<_Abi>())
4312	{
4313	if constexpr (_S_size<_Tp> <= 8)
4314	{
4315	__m128i __a = {};
4316	__builtin_memcpy(&__a, __mem, _S_size<_Tp>);
4317	const auto __b = _mm512_cvtepi8_epi64(__a);
4318	return _mm512_test_epi64_mask(__b, __b);
4319	}
4320	else if constexpr (_S_size<_Tp> <= 16)
4321	{
4322	__m128i __a = {};
4323	__builtin_memcpy(&__a, __mem, _S_size<_Tp>);
4324	const auto __b = _mm512_cvtepi8_epi32(__a);
4325	return _mm512_test_epi32_mask(__b, __b);
4326	}
4327	else if constexpr (_S_size<_Tp> <= 32)
4328	{
4329	__m128i __a = {};
4330	__builtin_memcpy(&__a, __mem, 16);
4331	const auto __b = _mm512_cvtepi8_epi32(__a);
4332	__builtin_memcpy(&__a, __mem + 16, _S_size<_Tp> - 16);
4333	const auto __c = _mm512_cvtepi8_epi32(__a);
4334	return _mm512_test_epi32_mask(__b, __b)
4335	\| (_mm512_test_epi32_mask(__c, __c) << 16);
4336	}
4337	else if constexpr (_S_size<_Tp> <= 64)
4338	{
4339	__m128i __a = {};
4340	__builtin_memcpy(&__a, __mem, 16);
4341	const auto __b = _mm512_cvtepi8_epi32(__a);
4342	__builtin_memcpy(&__a, __mem + 16, 16);
4343	const auto __c = _mm512_cvtepi8_epi32(__a);
4344	if constexpr (_S_size<_Tp> <= 48)
4345	{
4346	__builtin_memcpy(&__a, __mem + 32, _S_size<_Tp> - 32);
4347	const auto __d = _mm512_cvtepi8_epi32(__a);
4348	return _mm512_test_epi32_mask(__b, __b)
4349	\| (_mm512_test_epi32_mask(__c, __c) << 16)
4350	\| (_ULLong(_mm512_test_epi32_mask(__d, __d)) << 32);
4351	}
4352	else
4353	{
4354	__builtin_memcpy(&__a, __mem + 16, 16);
4355	const auto __d = _mm512_cvtepi8_epi32(__a);
4356	__builtin_memcpy(&__a, __mem + 32, _S_size<_Tp> - 48);
4357	const auto __e = _mm512_cvtepi8_epi32(__a);
4358	return _mm512_test_epi32_mask(__b, __b)
4359	\| (_mm512_test_epi32_mask(__c, __c) << 16)
4360	\| (_ULLong(_mm512_test_epi32_mask(__d, __d)) << 32)
4361	\| (_ULLong(_mm512_test_epi32_mask(__e, __e)) << 48);
4362	}
4363	}
4364	else
4365	__assert_unreachable<_Tp>();
4366	}
4367	else if constexpr (sizeof(_Tp) == 8 && _S_size<_Tp> == 2)
4368	return __vector_bitcast<_Tp>(
4369	__vector_type16_t<int>{-int(__mem[0]), -int(__mem[0]),
4370	-int(__mem[1]), -int(__mem[1])});
4371	else if constexpr (sizeof(_Tp) == 8 && _S_size<_Tp> <= 4 && __have_avx)
4372	{
4373	int __bool4 = 0;
4374	__builtin_memcpy(&__bool4, __mem, _S_size<_Tp>);
4375	const auto __k = __to_intrin(
4376	(__vector_broadcast<4>(__bool4)
4377	& __make_vector<int>(0x1, 0x100, 0x10000,
4378	_S_size<_Tp> == 4 ? 0x1000000 : 0))
4379	!= 0);
4380	return __vector_bitcast<_Tp>(
4381	__concat(_mm_unpacklo_epi32(__k, __k),
4382	_mm_unpackhi_epi32(__k, __k)));
4383	}
4384	else if constexpr (sizeof(_Tp) == 4 && _S_size<_Tp> <= 4)
4385	{
4386	int __bools = 0;
4387	__builtin_memcpy(&__bools, __mem, _S_size<_Tp>);
4388	if constexpr (__have_sse2)
4389	{
4390	__m128i __k = _mm_cvtsi32_si128(__bools);
4391	__k = _mm_cmpgt_epi16(_mm_unpacklo_epi8(__k, __k), __m128i());
4392	return __vector_bitcast<_Tp, _S_size<_Tp>>(
4393	_mm_unpacklo_epi16(__k, __k));
4394	}
4395	else
4396	{
4397	__m128 __k = _mm_cvtpi8_ps(_mm_cvtsi32_si64(__bools));
4398	_mm_empty();
4399	return __vector_bitcast<_Tp, _S_size<_Tp>>(
4400	_mm_cmpgt_ps(__k, __m128()));
4401	}
4402	}
4403	else if constexpr (sizeof(_Tp) == 4 && _S_size<_Tp> <= 8)
4404	{
4405	__m128i __k = {};
4406	__builtin_memcpy(&__k, __mem, _S_size<_Tp>);
4407	__k = _mm_cmpgt_epi16(_mm_unpacklo_epi8(__k, __k), __m128i());
4408	return __vector_bitcast<_Tp>(
4409	__concat(_mm_unpacklo_epi16(__k, __k),
4410	_mm_unpackhi_epi16(__k, __k)));
4411	}
4412	else if constexpr (sizeof(_Tp) == 2 && _S_size<_Tp> <= 16)
4413	{
4414	__m128i __k = {};
4415	__builtin_memcpy(&__k, __mem, _S_size<_Tp>);
4416	__k = _mm_cmpgt_epi8(__k, __m128i());
4417	if constexpr (_S_size<_Tp> <= 8)
4418	return __vector_bitcast<_Tp, _S_size<_Tp>>(
4419	_mm_unpacklo_epi8(__k, __k));
4420	else
4421	return __concat(_mm_unpacklo_epi8(__k, __k),
4422	_mm_unpackhi_epi8(__k, __k));
4423	}
4424	else
4425	return _Base::template _S_load<_Tp>(__mem);
4426	}
4427
4428	// }}}
4429	// _S_from_bitmask{{{
4430	template <size_t _Np, typename _Tp>
4431	_GLIBCXX_SIMD_INTRINSIC static _MaskMember<_Tp>
4432	_S_from_bitmask(_SanitizedBitMask<_Np> __bits, _TypeTag<_Tp>)
4433	{
4434	static_assert(is_same_v<_Tp, __int_for_sizeof_t<_Tp>>);
4435	if constexpr (__is_avx512_abi<_Abi>())
4436	return __bits._M_to_bits();
4437	else
4438	return _S_to_maskvector<_Tp, _S_size<_Tp>>(__bits);
4439	}
4440
4441	// }}}
4442	// _S_masked_load {{{2
4443	template <typename _Tp, size_t _Np>
4444	static inline _SimdWrapper<_Tp, _Np>
4445	_S_masked_load(_SimdWrapper<_Tp, _Np> __merge,
4446	_SimdWrapper<_Tp, _Np> __mask, const bool* __mem) noexcept
4447	{
4448	if constexpr (__is_avx512_abi<_Abi>())
4449	{
4450	if constexpr (__have_avx512bw_vl)
4451	{
4452	if constexpr (_Np <= 16)
4453	{
4454	const auto __a
4455	= _mm_mask_loadu_epi8(__m128i(), __mask, __mem);
4456	return (__merge & ~__mask) \| _mm_test_epi8_mask(__a, __a);
4457	}
4458	else if constexpr (_Np <= 32)
4459	{
4460	const auto __a
4461	= _mm256_mask_loadu_epi8(__m256i(), __mask, __mem);
4462	return (__merge & ~__mask)
4463	\| _mm256_test_epi8_mask(__a, __a);
4464	}
4465	else if constexpr (_Np <= 64)
4466	{
4467	const auto __a
4468	= _mm512_mask_loadu_epi8(__m512i(), __mask, __mem);
4469	return (__merge & ~__mask)
4470	\| _mm512_test_epi8_mask(__a, __a);
4471	}
4472	else
4473	__assert_unreachable<_Tp>();
4474	}
4475	else
4476	{
4477	_BitOps::_S_bit_iteration(__mask, [&](auto __i) {
4478	__merge._M_set(__i, __mem[__i]);
4479	});
4480	return __merge;
4481	}
4482	}
4483	else if constexpr (__have_avx512bw_vl && _Np == 32 && sizeof(_Tp) == 1)
4484	{
4485	const auto __k = _S_to_bits(__mask)._M_to_bits();
4486	__merge = _mm256_mask_sub_epi8(__to_intrin(__merge), __k, __m256i(),
4487	_mm256_mask_loadu_epi8(__m256i(),
4488	__k, __mem));
4489	}
4490	else if constexpr (__have_avx512bw_vl && _Np == 16 && sizeof(_Tp) == 1)
4491	{
4492	const auto __k = _S_to_bits(__mask)._M_to_bits();
4493	__merge
4494	= _mm_mask_sub_epi8(__vector_bitcast<_LLong>(__merge), __k,
4495	__m128i(),
4496	_mm_mask_loadu_epi8(__m128i(), __k, __mem));
4497	}
4498	else if constexpr (__have_avx512bw_vl && _Np == 16 && sizeof(_Tp) == 2)
4499	{
4500	const auto __k = _S_to_bits(__mask)._M_to_bits();
4501	__merge = _mm256_mask_sub_epi16(
4502	__vector_bitcast<_LLong>(__merge), __k, __m256i(),
4503	_mm256_cvtepi8_epi16(_mm_mask_loadu_epi8(__m128i(), __k, __mem)));
4504	}
4505	else if constexpr (__have_avx512bw_vl && _Np == 8 && sizeof(_Tp) == 2)
4506	{
4507	const auto __k = _S_to_bits(__mask)._M_to_bits();
4508	__merge = _mm_mask_sub_epi16(
4509	__vector_bitcast<_LLong>(__merge), __k, __m128i(),
4510	_mm_cvtepi8_epi16(_mm_mask_loadu_epi8(__m128i(), __k, __mem)));
4511	}
4512	else if constexpr (__have_avx512bw_vl && _Np == 8 && sizeof(_Tp) == 4)
4513	{
4514	const auto __k = _S_to_bits(__mask)._M_to_bits();
4515	__merge = __vector_bitcast<_Tp>(_mm256_mask_sub_epi32(
4516	__vector_bitcast<_LLong>(__merge), __k, __m256i(),
4517	_mm256_cvtepi8_epi32(
4518	_mm_mask_loadu_epi8(__m128i(), __k, __mem))));
4519	}
4520	else if constexpr (__have_avx512bw_vl && _Np == 4 && sizeof(_Tp) == 4)
4521	{
4522	const auto __k = _S_to_bits(__mask)._M_to_bits();
4523	__merge = __vector_bitcast<_Tp>(_mm_mask_sub_epi32(
4524	__vector_bitcast<_LLong>(__merge), __k, __m128i(),
4525	_mm_cvtepi8_epi32(_mm_mask_loadu_epi8(__m128i(), __k, __mem))));
4526	}
4527	else if constexpr (__have_avx512bw_vl && _Np == 4 && sizeof(_Tp) == 8)
4528	{
4529	const auto __k = _S_to_bits(__mask)._M_to_bits();
4530	__merge = __vector_bitcast<_Tp>(_mm256_mask_sub_epi64(
4531	__vector_bitcast<_LLong>(__merge), __k, __m256i(),
4532	_mm256_cvtepi8_epi64(
4533	_mm_mask_loadu_epi8(__m128i(), __k, __mem))));
4534	}
4535	else if constexpr (__have_avx512bw_vl && _Np == 2 && sizeof(_Tp) == 8)
4536	{
4537	const auto __k = _S_to_bits(__mask)._M_to_bits();
4538	__merge = __vector_bitcast<_Tp>(_mm_mask_sub_epi64(
4539	__vector_bitcast<_LLong>(__merge), __k, __m128i(),
4540	_mm_cvtepi8_epi64(_mm_mask_loadu_epi8(__m128i(), __k, __mem))));
4541	}
4542	else
4543	return _Base::_S_masked_load(__merge, __mask, __mem);
4544	return __merge;
4545	}
4546
4547	// _S_store {{{2
4548	template <typename _Tp, size_t _Np>
4549	_GLIBCXX_SIMD_INTRINSIC static void _S_store(_SimdWrapper<_Tp, _Np> __v,
4550	bool* __mem) noexcept
4551	{
4552	if constexpr (__is_avx512_abi<_Abi>())
4553	{
4554	if constexpr (__have_avx512bw_vl)
4555	_CommonImplX86::_S_store<_Np>(
4556	__vector_bitcast<char>([](auto __data) {
4557	if constexpr (_Np <= 16)
4558	return _mm_maskz_set1_epi8(__data, 1);
4559	else if constexpr (_Np <= 32)
4560	return _mm256_maskz_set1_epi8(__data, 1);
4561	else
4562	return _mm512_maskz_set1_epi8(__data, 1);
4563	}(__v._M_data)),
4564	__mem);
4565	else if constexpr (_Np <= 8)
4566	_CommonImplX86::_S_store<_Np>(
4567	__vector_bitcast<char>(
4568	#if defined __x86_64__
4569	__make_wrapper<_ULLong>(
4570	_pdep_u64(__v._M_data, 0x0101010101010101ULL), 0ull)
4571	#else
4572	__make_wrapper<_UInt>(_pdep_u32(__v._M_data, 0x01010101U),
4573	_pdep_u32(__v._M_data >> 4,
4574	0x01010101U))
4575	#endif
4576	),
4577	__mem);
4578	else if constexpr (_Np <= 16)
4579	_mm512_mask_cvtepi32_storeu_epi8(
4580	__mem, 0xffffu >> (16 - _Np),
4581	_mm512_maskz_set1_epi32(__v._M_data, 1));
4582	else
4583	__assert_unreachable<_Tp>();
4584	}
4585	else if constexpr (__is_sse_abi<_Abi>()) //{{{
4586	{
4587	if constexpr (_Np == 2 && sizeof(_Tp) == 8)
4588	{
4589	const auto __k = __vector_bitcast<int>(__v);
4590	__mem[0] = -__k[1];
4591	__mem[1] = -__k[3];
4592	}
4593	else if constexpr (_Np <= 4 && sizeof(_Tp) == 4)
4594	{
4595	if constexpr (__have_sse2)
4596	{
4597	const unsigned __bool4
4598	= __vector_bitcast<_UInt>(_mm_packs_epi16(
4599	_mm_packs_epi32(__intrin_bitcast<__m128i>(
4600	__to_intrin(__v)),
4601	__m128i()),
4602	__m128i()))[0]
4603	& 0x01010101u;
4604	__builtin_memcpy(__mem, &__bool4, _Np);
4605	}
4606	else if constexpr (__have_mmx)
4607	{
4608	const __m64 __k = _mm_cvtps_pi8(
4609	__and(__to_intrin(__v), _mm_set1_ps(1.f)));
4610	__builtin_memcpy(__mem, &__k, _Np);
4611	_mm_empty();
4612	}
4613	else
4614	return _Base::_S_store(__v, __mem);
4615	}
4616	else if constexpr (_Np <= 8 && sizeof(_Tp) == 2)
4617	{
4618	_CommonImplX86::_S_store<_Np>(
4619	__vector_bitcast<char>(_mm_packs_epi16(
4620	__to_intrin(__vector_bitcast<_UShort>(__v) >> 15),
4621	__m128i())),
4622	__mem);
4623	}
4624	else if constexpr (_Np <= 16 && sizeof(_Tp) == 1)
4625	_CommonImplX86::_S_store<_Np>(__v._M_data & 1, __mem);
4626	else
4627	__assert_unreachable<_Tp>();
4628	} // }}}
4629	else if constexpr (__is_avx_abi<_Abi>()) // {{{
4630	{
4631	if constexpr (_Np <= 4 && sizeof(_Tp) == 8)
4632	{
4633	auto __k = __intrin_bitcast<__m256i>(__to_intrin(__v));
4634	int __bool4;
4635	if constexpr (__have_avx2)
4636	__bool4 = _mm256_movemask_epi8(__k);
4637	else
4638	__bool4 = (_mm_movemask_epi8(__lo128(__k))
4639	\| (_mm_movemask_epi8(__hi128(__k)) << 16));
4640	__bool4 &= 0x01010101;
4641	__builtin_memcpy(__mem, &__bool4, _Np);
4642	}
4643	else if constexpr (_Np <= 8 && sizeof(_Tp) == 4)
4644	{
4645	const auto __k = __intrin_bitcast<__m256i>(__to_intrin(__v));
4646	const auto __k2
4647	= _mm_srli_epi16(_mm_packs_epi16(__lo128(__k), __hi128(__k)),
4648	15);
4649	const auto __k3
4650	= __vector_bitcast<char>(_mm_packs_epi16(__k2, __m128i()));
4651	_CommonImplX86::_S_store<_Np>(__k3, __mem);
4652	}
4653	else if constexpr (_Np <= 16 && sizeof(_Tp) == 2)
4654	{
4655	if constexpr (__have_avx2)
4656	{
4657	const auto __x = _mm256_srli_epi16(__to_intrin(__v), 15);
4658	const auto __bools = __vector_bitcast<char>(
4659	_mm_packs_epi16(__lo128(__x), __hi128(__x)));
4660	_CommonImplX86::_S_store<_Np>(__bools, __mem);
4661	}
4662	else
4663	{
4664	const auto __bools
4665	= 1
4666	& __vector_bitcast<_UChar>(
4667	_mm_packs_epi16(__lo128(__to_intrin(__v)),
4668	__hi128(__to_intrin(__v))));
4669	_CommonImplX86::_S_store<_Np>(__bools, __mem);
4670	}
4671	}
4672	else if constexpr (_Np <= 32 && sizeof(_Tp) == 1)
4673	_CommonImplX86::_S_store<_Np>(1 & __v._M_data, __mem);
4674	else
4675	__assert_unreachable<_Tp>();
4676	} // }}}
4677	else
4678	__assert_unreachable<_Tp>();
4679	}
4680
4681	// _S_masked_store {{{2
4682	template <typename _Tp, size_t _Np>
4683	static inline void
4684	_S_masked_store(const _SimdWrapper<_Tp, _Np> __v, bool* __mem,
4685	const _SimdWrapper<_Tp, _Np> __k) noexcept
4686	{
4687	if constexpr (__is_avx512_abi<_Abi>())
4688	{
4689	static_assert(is_same_v<_Tp, bool>);
4690	if constexpr (_Np <= 16 && __have_avx512bw_vl)
4691	_mm_mask_storeu_epi8(__mem, __k, _mm_maskz_set1_epi8(__v, 1));
4692	else if constexpr (_Np <= 16)
4693	_mm512_mask_cvtepi32_storeu_epi8(__mem, __k,
4694	_mm512_maskz_set1_epi32(__v, 1));
4695	else if constexpr (_Np <= 32 && __have_avx512bw_vl)
4696	_mm256_mask_storeu_epi8(__mem, __k,
4697	_mm256_maskz_set1_epi8(__v, 1));
4698	else if constexpr (_Np <= 32 && __have_avx512bw)
4699	_mm256_mask_storeu_epi8(__mem, __k,
4700	__lo256(_mm512_maskz_set1_epi8(__v, 1)));
4701	else if constexpr (_Np <= 64 && __have_avx512bw)
4702	_mm512_mask_storeu_epi8(__mem, __k,
4703	_mm512_maskz_set1_epi8(__v, 1));
4704	else
4705	__assert_unreachable<_Tp>();
4706	}
4707	else
4708	_Base::_S_masked_store(__v, __mem, __k);
4709	}
4710
4711	// logical and bitwise operators {{{2
4712	template <typename _Tp, size_t _Np>
4713	_GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
4714	_S_logical_and(const _SimdWrapper<_Tp, _Np>& __x,
4715	const _SimdWrapper<_Tp, _Np>& __y)
4716	{
4717	if constexpr (is_same_v<_Tp, bool>)
4718	{
4719	if constexpr (__have_avx512dq && _Np <= 8)
4720	return _kand_mask8(__x._M_data, __y._M_data);
4721	else if constexpr (_Np <= 16)
4722	return _kand_mask16(__x._M_data, __y._M_data);
4723	else if constexpr (__have_avx512bw && _Np <= 32)
4724	return _kand_mask32(__x._M_data, __y._M_data);
4725	else if constexpr (__have_avx512bw && _Np <= 64)
4726	return _kand_mask64(__x._M_data, __y._M_data);
4727	else
4728	__assert_unreachable<_Tp>();
4729	}
4730	else
4731	return _Base::_S_logical_and(__x, __y);
4732	}
4733
4734	template <typename _Tp, size_t _Np>
4735	_GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
4736	_S_logical_or(const _SimdWrapper<_Tp, _Np>& __x,
4737	const _SimdWrapper<_Tp, _Np>& __y)
4738	{
4739	if constexpr (is_same_v<_Tp, bool>)
4740	{
4741	if constexpr (__have_avx512dq && _Np <= 8)
4742	return _kor_mask8(__x._M_data, __y._M_data);
4743	else if constexpr (_Np <= 16)
4744	return _kor_mask16(__x._M_data, __y._M_data);
4745	else if constexpr (__have_avx512bw && _Np <= 32)
4746	return _kor_mask32(__x._M_data, __y._M_data);
4747	else if constexpr (__have_avx512bw && _Np <= 64)
4748	return _kor_mask64(__x._M_data, __y._M_data);
4749	else
4750	__assert_unreachable<_Tp>();
4751	}
4752	else
4753	return _Base::_S_logical_or(__x, __y);
4754	}
4755
4756	template <typename _Tp, size_t _Np>
4757	_GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
4758	_S_bit_not(const _SimdWrapper<_Tp, _Np>& __x)
4759	{
4760	if constexpr (is_same_v<_Tp, bool>)
4761	{
4762	if constexpr (__have_avx512dq && _Np <= 8)
4763	return _kandn_mask8(__x._M_data,
4764	_Abi::template __implicit_mask_n<_Np>());
4765	else if constexpr (_Np <= 16)
4766	return _kandn_mask16(__x._M_data,
4767	_Abi::template __implicit_mask_n<_Np>());
4768	else if constexpr (__have_avx512bw && _Np <= 32)
4769	return _kandn_mask32(__x._M_data,
4770	_Abi::template __implicit_mask_n<_Np>());
4771	else if constexpr (__have_avx512bw && _Np <= 64)
4772	return _kandn_mask64(__x._M_data,
4773	_Abi::template __implicit_mask_n<_Np>());
4774	else
4775	__assert_unreachable<_Tp>();
4776	}
4777	else
4778	return _Base::_S_bit_not(__x);
4779	}
4780
4781	template <typename _Tp, size_t _Np>
4782	_GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
4783	_S_bit_and(const _SimdWrapper<_Tp, _Np>& __x,
4784	const _SimdWrapper<_Tp, _Np>& __y)
4785	{
4786	if constexpr (is_same_v<_Tp, bool>)
4787	{
4788	if constexpr (__have_avx512dq && _Np <= 8)
4789	return _kand_mask8(__x._M_data, __y._M_data);
4790	else if constexpr (_Np <= 16)
4791	return _kand_mask16(__x._M_data, __y._M_data);
4792	else if constexpr (__have_avx512bw && _Np <= 32)
4793	return _kand_mask32(__x._M_data, __y._M_data);
4794	else if constexpr (__have_avx512bw && _Np <= 64)
4795	return _kand_mask64(__x._M_data, __y._M_data);
4796	else
4797	__assert_unreachable<_Tp>();
4798	}
4799	else
4800	return _Base::_S_bit_and(__x, __y);
4801	}
4802
4803	template <typename _Tp, size_t _Np>
4804	_GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
4805	_S_bit_or(const _SimdWrapper<_Tp, _Np>& __x,
4806	const _SimdWrapper<_Tp, _Np>& __y)
4807	{
4808	if constexpr (is_same_v<_Tp, bool>)
4809	{
4810	if constexpr (__have_avx512dq && _Np <= 8)
4811	return _kor_mask8(__x._M_data, __y._M_data);
4812	else if constexpr (_Np <= 16)
4813	return _kor_mask16(__x._M_data, __y._M_data);
4814	else if constexpr (__have_avx512bw && _Np <= 32)
4815	return _kor_mask32(__x._M_data, __y._M_data);
4816	else if constexpr (__have_avx512bw && _Np <= 64)
4817	return _kor_mask64(__x._M_data, __y._M_data);
4818	else
4819	__assert_unreachable<_Tp>();
4820	}
4821	else
4822	return _Base::_S_bit_or(__x, __y);
4823	}
4824
4825	template <typename _Tp, size_t _Np>
4826	_GLIBCXX_SIMD_INTRINSIC static constexpr _SimdWrapper<_Tp, _Np>
4827	_S_bit_xor(const _SimdWrapper<_Tp, _Np>& __x,
4828	const _SimdWrapper<_Tp, _Np>& __y)
4829	{
4830	if constexpr (is_same_v<_Tp, bool>)
4831	{
4832	if constexpr (__have_avx512dq && _Np <= 8)
4833	return _kxor_mask8(__x._M_data, __y._M_data);
4834	else if constexpr (_Np <= 16)
4835	return _kxor_mask16(__x._M_data, __y._M_data);
4836	else if constexpr (__have_avx512bw && _Np <= 32)
4837	return _kxor_mask32(__x._M_data, __y._M_data);
4838	else if constexpr (__have_avx512bw && _Np <= 64)
4839	return _kxor_mask64(__x._M_data, __y._M_data);
4840	else
4841	__assert_unreachable<_Tp>();
4842	}
4843	else
4844	return _Base::_S_bit_xor(__x, __y);
4845	}
4846
4847	//}}}2
4848	// _S_masked_assign{{{
4849	template <size_t _Np>
4850	_GLIBCXX_SIMD_INTRINSIC static void
4851	_S_masked_assign(_SimdWrapper<bool, _Np> __k,
4852	_SimdWrapper<bool, _Np>& __lhs,
4853	_SimdWrapper<bool, _Np> __rhs)
4854	{
4855	__lhs._M_data
4856	= (~__k._M_data & __lhs._M_data) \| (__k._M_data & __rhs._M_data);
4857	}
4858
4859	template <size_t _Np>
4860	_GLIBCXX_SIMD_INTRINSIC static void
4861	_S_masked_assign(_SimdWrapper<bool, _Np> __k,
4862	_SimdWrapper<bool, _Np>& __lhs, bool __rhs)
4863	{
4864	if (__rhs)
4865	__lhs._M_data = __k._M_data \| __lhs._M_data;
4866	else
4867	__lhs._M_data = ~__k._M_data & __lhs._M_data;
4868	}
4869
4870	using _MaskImplBuiltin<_Abi>::_S_masked_assign;
4871
4872	//}}}
4873	// _S_all_of {{{
4874	template <typename _Tp>
4875	_GLIBCXX_SIMD_INTRINSIC static bool _S_all_of(simd_mask<_Tp, _Abi> __k)
4876	{
4877	if constexpr (__is_sse_abi<_Abi>() \|\| __is_avx_abi<_Abi>())
4878	{
4879	constexpr size_t _Np = simd_size_v<_Tp, _Abi>;
4880	using _TI = __intrinsic_type_t<_Tp, _Np>;
4881	const _TI __a = reinterpret_cast<_TI>(__to_intrin(__data(__k)));
4882	if constexpr (__have_sse4_1)
4883	{
4884	_GLIBCXX_SIMD_USE_CONSTEXPR _TI __b
4885	= _Abi::template _S_implicit_mask_intrin<_Tp>();
4886	return 0 != __testc(__a, __b);
4887	}
4888	else if constexpr (is_same_v<_Tp, float>)
4889	return (_mm_movemask_ps(__a) & ((1 << _Np) - 1))
4890	== (1 << _Np) - 1;
4891	else if constexpr (is_same_v<_Tp, double>)
4892	return (_mm_movemask_pd(__a) & ((1 << _Np) - 1))
4893	== (1 << _Np) - 1;
4894	else
4895	return (_mm_movemask_epi8(__a) & ((1 << (_Np * sizeof(_Tp))) - 1))
4896	== (1 << (_Np * sizeof(_Tp))) - 1;
4897	}
4898	else if constexpr (__is_avx512_abi<_Abi>())
4899	{
4900	constexpr auto _Mask = _Abi::template _S_implicit_mask<_Tp>();
4901	const auto __kk = __k._M_data._M_data;
4902	if constexpr (sizeof(__kk) == 1)
4903	{
4904	if constexpr (__have_avx512dq)
4905	return _kortestc_mask8_u8(__kk, _Mask == 0xff
4906	? __kk
4907	: __mmask8(~_Mask));
4908	else
4909	return _kortestc_mask16_u8(__kk, __mmask16(~_Mask));
4910	}
4911	else if constexpr (sizeof(__kk) == 2)
4912	return _kortestc_mask16_u8(__kk, _Mask == 0xffff
4913	? __kk
4914	: __mmask16(~_Mask));
4915	else if constexpr (sizeof(__kk) == 4 && __have_avx512bw)
4916	return _kortestc_mask32_u8(__kk, _Mask == 0xffffffffU
4917	? __kk
4918	: __mmask32(~_Mask));
4919	else if constexpr (sizeof(__kk) == 8 && __have_avx512bw)
4920	return _kortestc_mask64_u8(__kk, _Mask == 0xffffffffffffffffULL
4921	? __kk
4922	: __mmask64(~_Mask));
4923	else
4924	__assert_unreachable<_Tp>();
4925	}
4926	}
4927
4928	// }}}
4929	// _S_any_of {{{
4930	template <typename _Tp>
4931	_GLIBCXX_SIMD_INTRINSIC static bool _S_any_of(simd_mask<_Tp, _Abi> __k)
4932	{
4933	if constexpr (__is_sse_abi<_Abi>() \|\| __is_avx_abi<_Abi>())
4934	{
4935	constexpr size_t _Np = simd_size_v<_Tp, _Abi>;
4936	using _TI = __intrinsic_type_t<_Tp, _Np>;
4937	const _TI __a = reinterpret_cast<_TI>(__to_intrin(__data(__k)));
4938	if constexpr (__have_sse4_1)
4939	{
4940	if constexpr (_Abi::template _S_is_partial<
4941	_Tp> \|\| sizeof(__k) < 16)
4942	{
4943	_GLIBCXX_SIMD_USE_CONSTEXPR _TI __b
4944	= _Abi::template _S_implicit_mask_intrin<_Tp>();
4945	return 0 == __testz(__a, __b);
4946	}
4947	else
4948	return 0 == __testz(__a, __a);
4949	}
4950	else if constexpr (is_same_v<_Tp, float>)
4951	return (_mm_movemask_ps(__a) & ((1 << _Np) - 1)) != 0;
4952	else if constexpr (is_same_v<_Tp, double>)
4953	return (_mm_movemask_pd(__a) & ((1 << _Np) - 1)) != 0;
4954	else
4955	return (_mm_movemask_epi8(__a) & ((1 << (_Np * sizeof(_Tp))) - 1))
4956	!= 0;
4957	}
4958	else if constexpr (__is_avx512_abi<_Abi>())
4959	return (__k._M_data._M_data & _Abi::template _S_implicit_mask<_Tp>())
4960	!= 0;
4961	}
4962
4963	// }}}
4964	// _S_none_of {{{
4965	template <typename _Tp>
4966	_GLIBCXX_SIMD_INTRINSIC static bool _S_none_of(simd_mask<_Tp, _Abi> __k)
4967	{
4968	if constexpr (__is_sse_abi<_Abi>() \|\| __is_avx_abi<_Abi>())
4969	{
4970	constexpr size_t _Np = simd_size_v<_Tp, _Abi>;
4971	using _TI = __intrinsic_type_t<_Tp, _Np>;
4972	const _TI __a = reinterpret_cast<_TI>(__to_intrin(__data(__k)));
4973	if constexpr (__have_sse4_1)
4974	{
4975	if constexpr (_Abi::template _S_is_partial<
4976	_Tp> \|\| sizeof(__k) < 16)
4977	{
4978	_GLIBCXX_SIMD_USE_CONSTEXPR _TI __b
4979	= _Abi::template _S_implicit_mask_intrin<_Tp>();
4980	return 0 != __testz(__a, __b);
4981	}
4982	else
4983	return 0 != __testz(__a, __a);
4984	}
4985	else if constexpr (is_same_v<_Tp, float>)
4986	return (__movemask(__a) & ((1 << _Np) - 1)) == 0;
4987	else if constexpr (is_same_v<_Tp, double>)
4988	return (__movemask(__a) & ((1 << _Np) - 1)) == 0;
4989	else
4990	return (__movemask(__a) & int((1ull << (_Np * sizeof(_Tp))) - 1))
4991	== 0;
4992	}
4993	else if constexpr (__is_avx512_abi<_Abi>())
4994	return (__k._M_data._M_data & _Abi::template _S_implicit_mask<_Tp>())
4995	== 0;
4996	}
4997
4998	// }}}
4999	// _S_some_of {{{
5000	template <typename _Tp>
5001	_GLIBCXX_SIMD_INTRINSIC static bool _S_some_of(simd_mask<_Tp, _Abi> __k)
5002	{
5003	if constexpr (__is_sse_abi<_Abi>() \|\| __is_avx_abi<_Abi>())
5004	{
5005	constexpr size_t _Np = simd_size_v<_Tp, _Abi>;
5006	using _TI = __intrinsic_type_t<_Tp, _Np>;
5007	const _TI __a = reinterpret_cast<_TI>(__to_intrin(__data(__k)));
5008	if constexpr (__have_sse4_1)
5009	{
5010	_GLIBCXX_SIMD_USE_CONSTEXPR _TI __b
5011	= _Abi::template _S_implicit_mask_intrin<_Tp>();
5012	return 0 != __testnzc(__a, __b);
5013	}
5014	else if constexpr (is_same_v<_Tp, float>)
5015	{
5016	constexpr int __allbits = (1 << _Np) - 1;
5017	const auto __tmp = _mm_movemask_ps(__a) & __allbits;
5018	return __tmp > 0 && __tmp < __allbits;
5019	}
5020	else if constexpr (is_same_v<_Tp, double>)
5021	{
5022	constexpr int __allbits = (1 << _Np) - 1;
5023	const auto __tmp = _mm_movemask_pd(__a) & __allbits;
5024	return __tmp > 0 && __tmp < __allbits;
5025	}
5026	else
5027	{
5028	constexpr int __allbits = (1 << (_Np * sizeof(_Tp))) - 1;
5029	const auto __tmp = _mm_movemask_epi8(__a) & __allbits;
5030	return __tmp > 0 && __tmp < __allbits;
5031	}
5032	}
5033	else if constexpr (__is_avx512_abi<_Abi>())
5034	return _S_any_of(__k) && !_S_all_of(__k);
5035	else
5036	__assert_unreachable<_Tp>();
5037	}
5038
5039	// }}}
5040	// _S_popcount {{{
5041	template <typename _Tp>
5042	_GLIBCXX_SIMD_INTRINSIC static int _S_popcount(simd_mask<_Tp, _Abi> __k)
5043	{
5044	constexpr size_t _Np = simd_size_v<_Tp, _Abi>;
5045	const auto __kk = _Abi::_S_masked(__k._M_data)._M_data;
5046	if constexpr (__is_avx512_abi<_Abi>())
5047	{
5048	if constexpr (_Np > 32)
5049	return __builtin_popcountll(__kk);
5050	else
5051	return __builtin_popcount(__kk);
5052	}
5053	else
5054	{
5055	if constexpr (__have_popcnt)
5056	{
5057	int __bits
5058	= __movemask(__to_intrin(__vector_bitcast<_Tp>(__kk)));
5059	const int __count = __builtin_popcount(__bits);
5060	return is_integral_v<_Tp> ? __count / sizeof(_Tp) : __count;
5061	}
5062	else if constexpr (_Np == 2 && sizeof(_Tp) == 8)
5063	{
5064	const int mask = _mm_movemask_pd(__auto_bitcast(__kk));
5065	return mask - (mask >> 1);
5066	}
5067	else if constexpr (_Np <= 4 && sizeof(_Tp) == 8)
5068	{
5069	auto __x = -(__lo128(__kk) + __hi128(__kk));
5070	return __x[0] + __x[1];
5071	}
5072	else if constexpr (_Np <= 4 && sizeof(_Tp) == 4)
5073	{
5074	if constexpr (__have_sse2)
5075	{
5076	__m128i __x = __intrin_bitcast<__m128i>(__to_intrin(__kk));
5077	__x = _mm_add_epi32(
5078	__x, _mm_shuffle_epi32(__x, _MM_SHUFFLE(0, 1, 2, 3)));
5079	__x = _mm_add_epi32(
5080	__x, _mm_shufflelo_epi16(__x, _MM_SHUFFLE(1, 0, 3, 2)));
5081	return -_mm_cvtsi128_si32(__x);
5082	}
5083	else
5084	return __builtin_popcount(
5085	_mm_movemask_ps(__auto_bitcast(__kk)));
5086	}
5087	else if constexpr (_Np <= 8 && sizeof(_Tp) == 2)
5088	{
5089	auto __x = __to_intrin(__kk);
5090	__x = _mm_add_epi16(__x,
5091	_mm_shuffle_epi32(__x,
5092	_MM_SHUFFLE(0, 1, 2, 3)));
5093	__x = _mm_add_epi16(
5094	__x, _mm_shufflelo_epi16(__x, _MM_SHUFFLE(0, 1, 2, 3)));
5095	__x = _mm_add_epi16(
5096	__x, _mm_shufflelo_epi16(__x, _MM_SHUFFLE(2, 3, 0, 1)));
5097	return -short(_mm_extract_epi16(__x, 0));
5098	}
5099	else if constexpr (_Np <= 16 && sizeof(_Tp) == 1)
5100	{
5101	auto __x = __to_intrin(__kk);
5102	__x = _mm_add_epi8(__x,
5103	_mm_shuffle_epi32(__x,
5104	_MM_SHUFFLE(0, 1, 2, 3)));
5105	__x = _mm_add_epi8(__x,
5106	_mm_shufflelo_epi16(__x, _MM_SHUFFLE(0, 1, 2,
5107	3)));
5108	__x = _mm_add_epi8(__x,
5109	_mm_shufflelo_epi16(__x, _MM_SHUFFLE(2, 3, 0,
5110	1)));
5111	auto __y = -__vector_bitcast<_UChar>(__x);
5112	if constexpr (__have_sse4_1)
5113	return __y[0] + __y[1];
5114	else
5115	{
5116	unsigned __z = _mm_extract_epi16(__to_intrin(__y), 0);
5117	return (__z & 0xff) + (__z >> 8);
5118	}
5119	}
5120	else if constexpr (sizeof(__kk) == 32)
5121	{
5122	// The following works only as long as the implementations above
5123	// use a summation
5124	using _I = __int_for_sizeof_t<_Tp>;
5125	const auto __as_int = __vector_bitcast<_I>(__kk);
5126	_MaskImplX86<simd_abi::__sse>::_S_popcount(
5127	simd_mask<_I, simd_abi::__sse>(__private_init,
5128	__lo128(__as_int)
5129	+ __hi128(__as_int)));
5130	}
5131	else
5132	__assert_unreachable<_Tp>();
5133	}
5134	}
5135
5136	// }}}
5137	// _S_find_first_set {{{
5138	template <typename _Tp>
5139	_GLIBCXX_SIMD_INTRINSIC static int
5140	_S_find_first_set(simd_mask<_Tp, _Abi> __k)
5141	{
5142	if constexpr (__is_avx512_abi<_Abi>())
5143	return std::__countr_zero(__k._M_data._M_data);
5144	else
5145	return _Base::_S_find_first_set(__k);
5146	}
5147
5148	// }}}
5149	// _S_find_last_set {{{
5150	template <typename _Tp>
5151	_GLIBCXX_SIMD_INTRINSIC static int
5152	_S_find_last_set(simd_mask<_Tp, _Abi> __k)
5153	{
5154	if constexpr (__is_avx512_abi<_Abi>())
5155	return std::__bit_width(__k._M_data._M_data) - 1;
5156	else
5157	return _Base::_S_find_last_set(__k);
5158	}
5159
5160	// }}}
5161	};
5162
5163	// }}}
5164
5165	_GLIBCXX_SIMD_END_NAMESPACE
5166	#endif // __cplusplus >= 201703L
5167	#endif // _GLIBCXX_EXPERIMENTAL_SIMD_X86_H_
5168
5169	// vim: foldmethod=marker sw=2 noet ts=8 sts=2 tw=80

Note: See TracBrowser for help on using the repository browser.

Context Navigation

source: Daodan/MSYS2/mingw32/include/c++/11.2.0/experimental/bits/simd_x86.h@ 1177

Download in other formats: