Аппаратное обеспечение


Имеющиеся сервера можно разделить на типы по следующим критериям:

  • Используемые вычислительные элементы. Если используются только центральные процессоры, архитектура называется 'однородной' или 'гомогенной'. Если дополнительно используются сопроцессоры, графические ускорители или какие-то другие вычислительные модули, архитектура называется 'гибридной' или 'гетерогенной'.
  • Самодостаточность. Для удешевления и более компактного расположения используются так называемые блейд-сервера (от английского 'blade' - 'лезвие'), содержащие только основные компоненты: материнскую плату, процессор, ОЗУ, опционально HDD, … , но не имеющие собственных блоков электропитания и вентиляторов для охлаждения. Такие сервера не могут работать самостоятельно, они должны устанавливаться в специальную серверную полку (также называемую 'шасси' или 'корзина'), обеспечивающую всем узлам централизованное отказоустойчивое электропитание, охлаждение, а иногда также управление и подключение к сетям передачи данных.

Однородные

  • 16 серверов HPE DL560 Gen10 (2019г), каждый из которых содержит:
    • Четыре 20-ядерных процессора Intel Xeon Gold 6248 с тактовой частотой 2500 МГц и поддержкой инструкций AVX-512
    • 384 ГБ ОЗУ

Блейд-сервера

Имеются сервера следующих типов:

  • 30 серверов HP XL230a Gen9 (2015г), каждый из которых содержит:
    • Два 12-ядерных процессора Intel Xeon E5-2680v3 с тактовой частотой 2500 МГц.
    • 192 ГБ ОЗУ
  • 48 серверов двойной плотности (в одном корпусе расположены два компьютера) HP BL2x220c G7 (2011г), каждый из которых содержит две материнские платы, на каждой из которых:
    • Два 6-ядерных процессора Intel Xeon X5670 с тактовой частотой 2932 МГц
    • 24 ГБ ОЗУ
  • 48 серверов двойной плотности HP BL2x220c G6 (2009г; выведены из работы и пользователям недоступны), каждый из которых содержит две материнские платы, на каждой из которых:
    • Два 4-ядерных процессора Intel Xeon E5540 с тактовой частотой 2530 МГц
    • 16 ГБ ОЗУ
  • 64 сервера HP BL460c G1 (2008; выведены из работы и пользователям недоступны), каждый из которых содержит:
    • Два 4-ядерных процессора Intel Xeon 5355 с тактовой частотой 2660 МГц
    • 16 ГБ ОЗУ

Узлы BL2x220c и BL460c расположены в 10 шасси C7000, каждое из которых вмещает 16 серверов (т.е. в случае BL2x220c это 32 компьютера). Узлы XL230a Gen9 расположены в шасси Appolo 6000, каждое из которых вмещает 10 таких серверов.

Сервера с общей памятью

Фактически это обычные сервера, имеющие большой объем оперативной памяти. Выделение их в отдельную категорию достаточно условно: например, сервер DL580 G5, приобретённый в 2008 году, имеет 128 ГБ ОЗУ, что для того времени весьма много. Но уже в 2010г. был приобретён сервер с общей памятью DL980 G7 с 2 ТБ ОЗУ, а в 2015г. - 35 штук «обычных» блейд-серверов XL230a и XL250a Gen9 c 192 ГБ ОЗУ.

Такие сервера нужны для выполнения программ, обрабатывающих большие объемы данных. Взаимодействие с оперативной памятью происходит существенно быстрее, чем с виртуальной (расположенной на жёстком диске), поэтому для некоторых задач увеличение доступной оперативной памяти может значительно ускорить выполнение.

Используются следующие сервера с общей памятью:

  • Один HP DL980 G7 (2014г), содержащий:
    • Восемь 10-ядерных процессоров Intel Xeon E7-4870 с тактовой частотой 2400 МГц
    • 2068371 МБ (~2 ТБ) ОЗУ
    • Ускоритель ввода/вывода HP 2410GB ioDrive2 Duo (P/N 673648-B21), представляющий из себя SSD диск большой ёмкости, подключенный напрямую к шине PCI Express. Позволяет создать две файловые системы размером по 1,2 ТБ (или одну размером 2,4 ТБ) со следующими характеристиками:
      • Скорость чтения 3 ГБ/сек, скорость записи - 2,5 ГБ/сек;
      • Latency около 15 микросекунд на операциях записи и 68 микросекунд на операциях чтения;
      • 285000 IOPS на операциях случайного чтения, 892000 IOPS на операциях последовательного чтения;
      • 725000 IOPS на операциях случайной записи, 935000 IOPS на операциях последовательной записи.
  • Один HP DL980 G7 (2010г), содержащий:
    • Восемь 8-ядерных процессоров Intel Xeon X7560 с тактовой частотой 2266 МГц
    • 2097152 МБ (~2 ТБ) ОЗУ
  • Один HP DL580 G5 (2008г), содержащий:
    • Четыре 4-ядерных процессора Intel Xeon 7350 с тактовой частотой 2933 МГц
    • 128944 МБ (~128 ГБ) ОЗУ

Гибридные

  • 1 сервер HPE Apollo 6500 Gen10 (2019г), содержащий:
    • два 20-ядерных процессора Xeon Gold 6248
    • 384 ГБ ОЗУ
    • 8 шт. NVIDIA Tesla V100 SXM2 32GB, соединённых с использование технологии NVLink 2.0. Пиковая производительность каждой V100:
      • 7.8 Терафлопс для операций двойной точности
      • 15.7 Терафлопс для операций одинарной точности
      • 125 Терафлопс для операций глубокого обучения
  • 12 блейд-серверов HP SL390s G7 (2011г), каждый из которых содержит:
    • Два 6-ядерных процессора Xeon X5670 с тактовой частотой 2933 MГц
    • 96 ГБ ОЗУ
    • 3 шт. NVIDIA Tesla M2090 на архитектуре Fermi (compute capability 2.0, поддержка прекращена в CUDA 9.0), у каждой из которых:
      • 1 GPU c 512 ядрами.
      • 6 ГБ памяти GDDR5 с пропускной способностью 177 ГБ/сек при выключенном контроле чётности (при включении ECC некая часть будет тратиться для обеспечения контроля).
      • 665 Гигафлопс пиковой производительности для операций двойной точности. 1331 Гигафлопс для одинарной.
  • 5 блейд-серверов HP XL250a Gen9 (2015г; гибридная архитектура оказалась невостребована, узлы используются аналогично похожим однородным XL230a Gen9), каждый из которых содержит:
    • Два 12-ядерных процессора Intel Xeon E5-2680v3 с тактовой частотой 2500 МГц
    • 192 ГБ ОЗУ
    • Два сопроцессора Intel Xeon Phi 7120P (второе поколение процессоров на базе архитектуры Intel MIC, кодовое название - 'Knights Corner'), у каждого из которых:
      • 16 ГБ собственного ОЗУ
      • 61 ядро, работающее в 244 потока на частотах 1,2 - 1,3 ГГц
      • 1,2 Тфлопс пиковой производительности

Коммуникационная сеть: Infiniband 4x EDR, QDR и DDR с пропускной способностью 100, 40 и 20 Гбит/с соответственно и латентностью порядка 1-7 мкс. Предназначена для для доступа к сетевым системам хранения данных и для взаимодействия параллельных процессов, работающих на разных серверах кластера (например, для передачи сообщений MPI).

Транспортная сеть: Gigabit Ethernet, используется для управления операционными системами серверов и работающими процессами.

Сервисная сеть: Fast / Gigabit Ethernet, служит для доступа к интерфейсам администрирования, например, к HPE Integrated Lights-Out или коммутационному оборудованию.

Используется сетевая СХД с параллельной архитектурой Panasas ActiveStor 18. Сырая ёмкость - 312 ТБ, полезная - 265 ТБ.

Производительность

При вводе кластера в эксплуатацию в 2008 году пиковая (теоритическая) производительность вычислительного комплекса равнялась 5,4 Тфлопс. Производительность, полученная на тесте Highly Parallel Linpack составила 4,1 Тфлопс. Комплекс занял 18 место в 9й редакции рейтинга TOP 50 суперкомпьютеров СНГ.

Производительность серверов разных типов:

  • Пиковая производительность серверов HP XL230a Gen9 - 28,8 Тфлопс. Полученная на тесте Linpack - 20,6 Тфлопс (71.5% от пиковой).
  • Пиковая производительность серверов HP BL2x220c G6 и G7 - 21,2 Тфлопс. Полученная на тесте Linpack - 17,3 Тфлопс (81.6% от пиковой).
  • Пиковая производительность NVIDIA Tesla M2090 серверов HP SL390s G7 - 23,9 Тфлопс. Полученная на тесте Linpack - 11,9 Тфлопс.
  • Пиковая производительность Xeon Phi серверов HP XL250a Gen9 - 12 Тфлопс.

Системное ПО

Операционная система всех вычислительных и большинства управляющих серверов - SUSE Linux Enterprise Server.

Управление прикладными задачами пользователей осуществляется с помощью планировщика Altair PBS Pro.