Очереди задач PBS

Очередь - имеющий собственное имя контейнер для задач, обрабатываемых определённым управляющим сервером PBS. Очередь содержит как уже выполняющиеся, так и ожидающие запуска задачи. Завершившиеся задачи очередь покидают. Планировщик использует несколько очередей, например, для запуска задач на узлах разных типов. Каждая задача может находиться только в одной очереди. Буква 'q' в начале названий многих утилит PBS происходит как раз от слова 'queue'.

Для запроса определённой очереди (например, с именем 'teslaq') на сервере по умолчанию необходимо добавить в скрипт для утилиты 'qsub' такую строчку:

#PBS -q teslaq

Для запроса очереди на другом сервере требуется добавить имя сервера:

#PBS -q dl560g10q@vm-pbs2

Во многих случаях очередь указывать не требуется. При этом будет использоваться очередь по умолчанию на сервере по умолчанию.

Очередь Узлы 1) Характеристики каждого узла Комментарий
Очереди на управляющем сервере по умолчанию ('vm-pbs'):
bl2x220g7q 96 узлов (48 серверов двойной плотности) HP BL2x220c G7 12 ядер, 24 ГБ ОЗУ Очередь по умолчанию для qsub, используется, если очередь не указана явно. Это вариант, подходящий для большинства задач. Запрашивать эту очередь в явном виде не нужно.
xl230g9q 30 шт. HP XL230a Gen9 и 5 шт. HP XL250a Gen9 24 ядра, 192 ГБ ОЗУ Для задач, которым необходимо от 2 до 8 ГБ ОЗУ на каждое ядро или более 24 ГБ ОЗУ на сервере или требуется поддержка процессором набора команд AVX2
teslaq 12 шт. HP SL390s G7 12 ядер, 96 ГБ ОЗУ, 3 GPU NVIDIA Tesla M2090 Для задач, использующих вычисления на GPU.
vkop2q 1 шт. HP DL980 G7 64 ядра, 2 ТБ ОЗУ Только для задач, которым недостаточно ОЗУ на других серверах.
Доступ к очереди ограничен, при необходимости обратитесь к администрации ИВЦ.
vkop3q 1 шт. HP DL980 G7 80 ядер, 2 ТБ ОЗУ Только для задач, которым недостаточно ОЗУ на других серверах.
Доступ к очереди ограничен, при необходимости обратитесь к администрации ИВЦ.
vkopq 1 шт. HP DL580 G5 16 ядер, 128 ГБ ОЗУ Используется в образовательных целях
Очереди на управляющем сервере 'vm-pbs2':
a6500g10q@vm-pbs2 1 шт. HPE Apollo 6500 Gen10 40 ядер, 384 ГБ ОЗУ, 8 шт. NVIDIA Tesla V100 SXM2 32GB С точки зрения планировщика сервер разделён на два виртуальных узла, каждый из которых содержит: 20 ядер одного процессора, 4 GPU, «ближайших» к этому процессору и 188 ГБ ОЗУ
dl560g10q@vm-pbs2 16 шт. HPE DL560 Gen10 80 ядер, 384 ГБ ОЗУ Работает в тестовом режиме, для задач с продолжительностью не более 24 часов.
Для задач, которым необходимо много ядер на 1 физическом сервере или требуется поддержка процессором набора команд AVX-512.

Со стороны пользователей комплекса неоднократно высказывались пожелания о выделении части узлов под непродолжительные задачи. Иначе в ситуации, когда все узлы надолго заняты, становится весьма проблематичным заниматься отладкой своей программы - каждый запуск предваряется продолжительным ожиданием, в несколько чаcов или иногда в несколько дней.

В связи с этим очереди bl2x220g7q, xl230g9q и teslaq модифицированы таким образом, что по крайней мере по одному серверу каждого типа выделены только для запуска задач с walltime до 1 часа включительно. Также часть узлов из очередей bl2x220g7q и xl230g9q зарезервированы для задач с временем работы не более 72 часов включительно. На остальных узлах могут запускаться задачи с walltime до 480 часов включительно.

С точки зрения постановки задач в очередь при этом ничего не изменилось - пользователь должен запрашивать ту очередь, которая соответствует узлам нужного типа (например, teslaq). Но итоговая очередь, в которой будет работать задача, будет называться немного по другому (например, tesla_short или teslaq_long). Это перенаправление в очередь с другим именем будет производиться самим планировщиком. Поставить задачу непосредственно в эту очередь (запросив её через #PBS -q tesla_short) нельзя.


1)
Указано количество имеющихся серверов определённой модели, включая неиспользуемые (например, неисправные). Количество узлов в очереди может быть меньше.