Очереди задач PBS

Очередь - имеющий собственное имя контейнер для задач, обрабатываемых определённым управляющим сервером PBS. Очередь содержит как уже выполняющиеся, так и ожидающие запуск задачи. Завершившиеся задачи очередь покидают. Планировщик использует несколько очередей, например, для запуска задач на узлах разных типов. Каждая задача может находиться только в одной очереди. Буква 'q' в начале названий многих утилит PBS происходит как раз от слова 'queue'.

Для запроса определённой очереди (например, с именем 'xl230g9q') на сервере по умолчанию необходимо добавить в скрипт для утилиты 'qsub' такую строчку:

#PBS -q xl230g9q

Для запроса очереди на другом сервере требуется добавить имя сервера:

#PBS -q dl560g10q@vm-pbs2

Во многих случаях очередь указывать не требуется. При этом будет использоваться очередь по умолчанию на сервере по умолчанию.

Очередь Узлы 1) Характеристики каждого узла Комментарий
Очереди на управляющем сервере по умолчанию ('vm-pbs'):
bl2x220g7q 96 узлов (48 серверов двойной плотности) HP BL2x220c G7 12 ядер, 24 ГБ ОЗУ Очередь по умолчанию для qsub, используется, если очередь не указана явно. Это вариант, подходящий для большинства задач. Запрашивать эту очередь в явном виде не нужно.
xl230g9q 30 шт. HP XL230a Gen9 и 5 шт. HP XL250a Gen9 24 ядра, 192 ГБ ОЗУ Для задач, которым необходимо от 2 до 8 ГБ ОЗУ на каждое ядро или более 24 ГБ ОЗУ на сервере или требуется поддержка процессором набора команд AVX2
teslaq 12 шт. HP SL390s G7 12 ядер, 96 ГБ ОЗУ, 3 GPU NVIDIA Tesla M2090 Для задач, использующих вычисления на GPU.
GPU M2090 устарели и поддерживаются только CUDA до версии 8.0 включительно.
Рекомендуется по возможности использовать a6500g10q@vm-pbs2
vkop2q 1 шт. HP DL980 G7 64 ядра, 2 ТБ ОЗУ Только для задач, которым недостаточно ОЗУ на других серверах.
Доступ к очереди ограничен, при необходимости обратитесь к администрации ИВЦ.
vkop3q 1 шт. HP DL980 G7 80 ядер, 2 ТБ ОЗУ Только для задач, которым недостаточно ОЗУ на других серверах.
Доступ к очереди ограничен, при необходимости обратитесь к администрации ИВЦ.
vkopq 1 шт. HP DL580 G5 16 ядер, 128 ГБ ОЗУ Сервер устарел, используется только в образовательных целях.
Доступ к очереди ограничен, при необходимости обратитесь к администрации ИВЦ.
Очереди на управляющем сервере 'vm-pbs2':
dl560g10q@vm-pbs2 16 шт. HPE DL560 Gen10 80 ядер, 384 ГБ ОЗУ Для задач, которым необходимо много ядер на одном физическом сервере или требуется поддержка процессором набора команд AVX-512
a6500g10q@vm-pbs2 1 шт. HPE Apollo 6500 Gen10 40 ядер, 384 ГБ ОЗУ, 8 шт. NVIDIA Tesla V100 SXM2 32GB С точки зрения планировщика сервер разделён на два виртуальных узла, каждый из которых содержит: 20 ядер одного процессора, 4 GPU, «ближайших» к этому процессору и 188 ГБ ОЗУ

Планировщик умеет перенаправлять поставленные в очередь задачи в зависимости от запрашиваемого для них времени работы в другие очереди, каждая из которых обслуживается своим набором вычислительных узлов и может иметь собственные ограничения на доступные ресурсы. На нашем комплексе задачи как правило делятся по продолжительности на три типа: 'короткие', 'средние' и 'длинные'. Название итоговой очереди созвучно названию очереди, в которую задача была поставлена пользователем, с добавлением одного из суффиксов: _short, _middle (или _mid) и _long. Пользователь не может поставить задачу непосредственно в такую очередь (например, указав #PBS -q xl230g9_long), это делается планировщиком.

В частности, со стороны пользователей комплекса неоднократно высказывались пожелания о выделении части узлов под непродолжительные задачи. Иначе в ситуации, когда все узлы надолго заняты, становится весьма проблематичным заниматься отладкой собственных программы - каждый запуск предваряется продолжительным ожиданием, в несколько чаcов или иногда в несколько дней. В связи с этим очереди, состоящие из нескольких однотипных узлов, модифицированы таким образом, что по крайней мере по одному серверу каждого типа выделены только для запуска задач продолжительностью до 1 часа включительно.

Также практика показала, что имеет смысл ограничивать количество узлов, на которых могут запускаться задачи максимальной продолжительности.

Диапазоны допустимой продолжительности задач (walltime) для каждой из очередей указаны в таблице ниже:

_short _middle _long
bl2x220g7q до 01:00:00 01:00:01 - 72:00:00 72:00:01 - 480:00:00
teslaq до 01:00:00 01:00:01 - 72:00:00
xl230g9q до 01:00:00 01:00:01 - 72:00:00 72:00:01 - 480:00:00
dl560g10q@vm-pbs2 до 01:00:00 01:00:01 - 72:00:00 72:00:01 - 240:00:00
a6500g10q@vm-pbs2 до 03:00:00 03:00:01 - 72:00:00 72:00:01 - 240:00:00

Доступные в данный момент ресурсы в каждой из этих очередей можно узнать с помощью утилиты qfree.


1)
Указано количество имеющихся серверов определённой модели, включая неиспользуемые (например, неисправные). Количество узлов в очереди может быть меньше.