Китай представил суперкомпьютер LineShine LX2 с производительностью 1.54 эксафлопс на базе миллионов ядер Huawei Armv9
Китай успешно ввёл в эксплуатацию масштабный суперкомпьютер LineShine LX2, который достигает производительности в 1.54 эксафлопс в задачах обучения искусственного интеллекта. Особенностью системы является её полностью процессорная архитектура: она обходится без использования графических ускорителей, традиционно применяемых для подобных вычислений. В основе комплекса лежат 2.45 миллиона ядер Armv9, разработанных компанией Huawei.
Архитектура LineShine LX2 и процессора LX2
Комплекс LineShine LX2 состоит из 20 480 вычислительных узлов. Каждый узел оснащен двумя процессорами LX2, что в сумме дает 40 960 чипов во всей системе. Каждый процессор LX2 содержит 304 процессорных ядра, таким образом, общий счётчик ядер Armv9 в суперкомпьютере достигает примерно 2.45 миллиона.
Процессор LX2, предположительно разработанный Huawei или в сотрудничестве с Национальным суперкомпьютерным центром Китая, имеет необычную архитектуру. В его состав входят два вычислительных чиплета, где ядра организованы в восемь кластеров, по 38 ядер в каждом. Каждое ядро оснащено блоками Scalable Vector Extension (SVE) и Scalable Matrix Extension (SME) от ARM, которые значительно ускоряют матричные операции, критически важные для обучения нейронных сетей. Отдельный чип LX2 способен обеспечить производительность в 60.3 терафлопс для операций с двойной точностью (FP64), 240 терафлопс для формата BF16 и 960 тераопс для целочисленных операций INT8.
Подсистема памяти процессора включает 32 ГБ высокоскоростной памяти HBM, обеспечивающей пропускную способность до 4 ТБ/с, а также до 256 ГБ оперативной памяти DDR5, расположенной вне корпуса чипа.
Преимущества CPU-центричных систем
Суперкомпьютеры, основанные исключительно на центральных процессорах, предлагают ряд преимуществ для сложных научных задач, которые сочетают обучение ИИ с интенсивным приёмом и предварительной обработкой огромных объёмов данных. Поскольку все операции выполняются на одном типе процессоров и в общем адресном пространстве памяти, удаётся избежать дорогостоящих и требовательных к пропускной способности операций передачи данных между центральными и графическими процессорами.
Однородные CPU-системы также могут предоставлять значительно большие объёмы когерентной памяти, комбинируя HBM с большой ёмкостью DDR. Это особенно полезно для обработки масштабных научных наборов данных, работы с генеративными моделями, использующими механизм дополненной выборки (Retrieval Augmented Generation), и обработки длинных контекстных окон, которые сложно эффективно разместить в ограниченной памяти графических ускорителей.
Ограничения и стратегический контекст
Однако у подхода, основанного исключительно на CPU, есть существенные оговорки. Такие системы обычно менее энергоэффективны и обеспечивают более низкую плотность вычислительной мощности для ИИ по сравнению с суперкомпьютерами, использующими графические процессоры. Это основная причина, по которой большая часть индустрии делает ставку на гетерогенные архитектуры, сочетающие CPU и GPU, для крупномасштабных задач ИИ.
Китайский путь в значительной степени обусловлен американскими ограничениями на экспорт мощных графических процессоров. Это вынуждает страну искать альтернативные решения, а не является свидетельством технического превосходства CPU-центричных систем для ИИ. LineShine демонстрирует, что центральные процессоры могут успешно выполнять задачи, традиционно возлагаемые на GPU, но разрыв в эффективности между двумя подходами остаётся значительным и вряд ли сократится в ближайшее время.
Китай делает стратегический выбор, принимая более низкую производительность и более высокое энергопотребление в обмен на независимость от зарубежного оборудования и программных экосистем, таких как графические процессоры Nvidia и их платформа CUDA. Долгосрочная целесообразность этого компромисса для развития ИИ зависит исключительно от того, насколько быстро китайские производители смогут сократить разрыв в производительности с собственными разработками графических процессоров. До тех пор LineShine остаётся выдающимся инженерным достижением и практической необходимостью, но, вероятно, не станет образцом для строительства суперкомпьютеров ИИ в большинстве стран мира.
Твитнуть
Просмотров: 6; 
