Содержание

Очереди задач PBS

Очередь - имеющий собственное имя контейнер для задач, обрабатываемых определённым управляющим сервером PBS Pro. Очередь содержит как уже выполняющиеся, так и ожидающие запуск задачи. Завершившиеся задачи очередь покидают. Планировщик использует несколько очередей, например, для запуска задач на узлах разных типов. Каждая задача может находиться только в одной очереди. Буква 'q' в начале названий многих утилит PBS происходит как раз от слова 'queue'.

Для запроса определённой очереди (например, с именем 'xl230g9q') на сервере по умолчанию необходимо добавить в скрипт для утилиты 'qsub' такую строчку:

#PBS -q xl230g9q

Во многих случаях очередь указывать не требуется. При этом будет использоваться очередь по умолчанию на сервере по умолчанию.

Модели вычислительных узлов и очереди задач

Очередь Узлы 1) Характеристики каждого узла Комментарий
bl2x220g7q 96 узлов (48 серверов двойной плотности) HP BL2x220c G7 12 ядер, 24 ГБ ОЗУ Очередь по умолчанию для qsub, используется, если очередь не указана явно. Запрашивать эту очередь в явном виде не нужно.
xl230g9q 30 шт. HP XL230a Gen9 и 5 шт. HP XL250a Gen9 24 ядра, 192 ГБ ОЗУ Для задач, которым необходимо от 2 до 8 ГБ ОЗУ на каждое ядро или более 24 ГБ ОЗУ на сервере или требуется поддержка процессором набора команд AVX2
teslaq 12 шт. HP SL390s G7 12 ядер, 96 ГБ ОЗУ, 3 GPU NVIDIA Tesla M2090 (устарели, поддерживаются только CUDA до версии 8.0 включительно) Узлы выключены с 2022 года. Ранее очередь использовалась для задач с вычислениями на GPU M2090.
Рекомендуется перейти на использование a6500g10
vkop2q 1 шт. HP DL980 G7 64 ядра, 2 ТБ ОЗУ Только для задач, которым недостаточно ОЗУ на других серверах.
Доступ к очереди ограничен, при необходимости обратитесь к администрации ИВЦ.
vkop3q 1 шт. HP DL980 G7 80 ядер, 2 ТБ ОЗУ Только для задач, которым недостаточно ОЗУ на других серверах.
Доступ к очереди ограничен, при необходимости обратитесь к администрации ИВЦ.
vkopq 1 шт. HP DL580 G5 16 ядер, 128 ГБ ОЗУ Сервер устарел, используется только в образовательных целях.
Доступ к очереди ограничен, при необходимости обратитесь к администрации ИВЦ.
dl560g10q 16 шт. HPE DL560 Gen10 80 ядер, 384 ГБ ОЗУ Для задач, которым необходимо много ядер на одном физическом сервере или требуется поддержка процессором набора команд AVX-512
a6500g10q 1 шт. HPE Apollo 6500 Gen10 40 ядер, 384 ГБ ОЗУ, 8 шт. NVIDIA Tesla V100 SXM2 32GB С точки зрения планировщика сервер разделён на два виртуальных узла, каждый из которых содержит: 20 ядер одного процессора, 188 ГБ ОЗУ и 4 GPU

Зависимость от walltime

Планировщик умеет перенаправлять поставленные в очередь задачи в зависимости от запрашиваемого для них времени работы в другие очереди, каждая из которых обслуживается своим набором вычислительных узлов и может иметь собственные ограничения на доступные ресурсы. На нашем комплексе задачи как правило делятся по продолжительности на три типа: 'короткие', 'средние' и 'длинные'. Название итоговой очереди созвучно названию очереди, в которую задача была поставлена пользователем, с добавлением одного из суффиксов: _short, _middle (или _mid) и _long. Пользователь не может поставить задачу непосредственно в такую очередь (например, указав #PBS -q xl230g9_long), это делается планировщиком.

В частности, со стороны пользователей комплекса неоднократно высказывались пожелания о выделении части узлов под непродолжительные задачи. Иначе в ситуации, когда все узлы надолго заняты, становится весьма проблематичным заниматься отладкой собственных программы - каждый запуск предваряется продолжительным ожиданием, в несколько чаcов или иногда в несколько дней. В связи с этим очереди, состоящие из нескольких однотипных узлов, модифицированы таким образом, что по крайней мере по одному серверу каждого типа выделены только для запуска задач продолжительностью до 1 часа включительно.

Также практика показала, что имеет смысл ограничивать количество узлов, на которых могут запускаться задачи максимальной продолжительности.

Диапазоны допустимой продолжительности задач (walltime) для каждой из очередей указаны в таблице ниже:

_short _middle _long
bl2x220g7q до 01:00:00 01:00:01 - 72:00:00 72:00:01 - 480:00:00
xl230g9q до 01:00:00 01:00:01 - 72:00:00 72:00:01 - 480:00:00
dl560g10q до 01:00:00 01:00:01 - 72:00:00 72:00:01 - 240:00:00
a6500g10q до 03:00:00 03:00:01 - 72:00:00 72:00:01 - 240:00:00


Доступные в данный момент ресурсы в каждой из этих очередей можно узнать с помощью утилит 'qfree' и 'a6500g10q'.

1)
Указано количество имеющихся серверов определённой модели, включая неиспользуемые (например, неисправные). Количество узлов в очереди может быть меньше.