Сообщество пристально приглядывалось к подарку Intel. К примеру, Лукас Бергдолл в начале июня опубликовал независимый бенчмарк, где сравнил сразу несколько алгоритмов, два из которых — с ручной векторизацией. Библиотека x86-simd-sort и её конкурент от Google vqsort показали себя хорошо, пусть с несколькими «но» в работе и не обязательно на порядок быстрее. Лукас привёл не просто голые числа, он подробно прокомментировал графики.
Сама Intel тоже не забывала о разработчиках. Инженеры компании ходили по различным проектам открытого программного обеспечения и причиняли оптимизацию сортировки с помощью x86-simd-sort. Помощь получили в OceanBase (PR #1325), несколько раз — NumPy (PR #22315, #23435 и #23707).
Позавчера этот список пополнила OpenJDK, открытая реализация Java SE. Ещё в мае сотрудник Intel в пулл-реквесте #14227 предложил провести векторизацию алгоритма сортировки. Лишь два дня назад слегка изменённый вариант x86-simd-sort приняли в проект.
В тот же день вышла версия 3.0 библиотеки x86-simd-sort. В числе новинок — поддержка метода avx512_argselect для вычисления arg nth_element для получения массива индексов для последующего разбития массива. Это было нужно для реализации argpartition в NumPy (PR #24201 принят 1 октября).
Остальные изменения третьей версии мелкие, часто это исправления. К примеру, теперь используется __builtin_cpu_supports вместо cpuinfo.
Как обычно, проект отчитался об ускорении на порядок:
AVX-512 — расширение системы команд AVX (Advanced Vector Extensions) до векторов длиной 512 бит. Впервые технологию реализовали в сопроцессорах Xeon Phi, затем она перекочевала в традиционные процессоры, поначалу оказавшись в дорогих решениях Skylake-X. Если в Skylake (6-е поколение) задействование «тяжёлых» инструкций AVX-512 приводило к заметному снижению тактовой частоты для регулирования тепловыделения, то Ice Lake (10-е поколение) замедляется всего на 100 МГц, а Rocket Lake (11-е поколение) не меняет частоту вовсе.
Любопытно, что в «ширпотребном» сегменте Intel больше нет AVX-512. Этот набор инструкций встречается в Xeon — серверных решениях и процессорах рабочих станций. Последний раз модуль AVX-512 в процессоре для домашнего пользователя присутствовал в P-ядрах Alder Lake, в 12-м поколении процессоров Core, но без официальной поддержки и лишь в ранних ревизиях. На более поздних вариантах рабочего модуля AVX-512 нет аппаратно, а в следующих микроархитектурах он отсутствовал изначально.
AMD же наоборот, добавила AVX-512 в микроархитектуре Zen 4. x86-simd-sort работает на Ryzen семитысячной серии и на 4-м поколении EPYC.
Впрочем, это не значит, что владельцы процессоров AMD в однозначном выигрыше. Как объясняют в репозитории x86-simd-sort, реализация инструкции compressstore у AMD не так эффективна. А именно на compressstore так полагается библиотека x86-simd-sort.
Как и в прошлый раз, на производительность у чипов AMD обратили внимание. После замечания в подреддите /r/java участник сообщества раскрутил на AWS инстанс m7a.2xlarge с процессором EPYC 9R14 и поискал прирост производительности от x86-simd-sort. Как оказалось, с включённым AVX-512 на Zen 4 скорость сортировки в OpenJDK даже незначительно падает. Реакции разработчиков по этой проблеме пока нет.