Очереди задач PBS

Очередь - имеющий собственное имя контейнер для задач, обрабатываемых PBS. Очередь содержит как уже выполняющиеся, так и ожидающие запуска задачи. Завершившиеся задачи очередь покидают. Планировщик использует несколько очередей, например, для запуска задач на узлах разных типов. Каждая задача может находиться только в одной очереди. Буква 'q' в начале названий многих утилит PBS происходит как раз от слова 'queue'.

Для запроса определённой очереди (например, с именем 'teslaq') необходимо добавить в скрипт для утилиты 'qsub' такую строчку:

#PBS -q teslaq

Но в большинстве случаев очередь указывать не нужно. При этом будет использоваться очередь по умолчанию.

  1. Если очередь не указана, используется очередь по умолчанию. Это вариант, подходящий для большинства задач. При этом используются узлы HP BL2x220c G7, имеющие по 12 ядер и 24 ГБ ОЗУ. Соответствующая очередь называется bl2x220g7q, запрашивать её в явном виде не нужно т.к. она и так используется по умолчанию.
  2. Сервера HP XL230a Gen9, имеющие по 24 ядра и 192 ГБ ОЗУ, т.е. по 8 ГБ ОЗУ на одно процессорное ядро. Очередь называется xl230g9q и предназначена для задач, которым необходимо более 2 ГБ ОЗУ на ядро или более 24 ГБ ОЗУ на сервере или требуется поддержка процессором набора команд AVX2.
  3. Сервера HP XL250a Gen9. По характеристикам похожи на HP XL230a Gen9, дополнительно содержат по два сопроцессора Intel Xeon Phi 7120P. Предназначены для задач, использующих Xeon Phi. Очередь называется xl250g9q
  4. Сервера HP SL390s G7, имеющие по 12 ядер, 96 ГБ ОЗУ и 3 GPU NVIDIA Tesla M2090. Предназначены для задач, использующих GPU. Подробное описание использования находится на этой странице. Очередь называется teslaq.
  5. Сервер HP DL580 G5, имеющий 16 ядер и 128 ГБ ОЗУ. Соответствующая очередь называется vkopq.
  6. Два сервера HP DL980 G7, имеющие по 2 ТБ ОЗУ. Доступ к этим серверам ограничен, при необходимости обратитесь к администрации информационно-вычислительного центра.

Со стороны пользователей комплекса неоднократно высказывались пожелания о выделении части узлов под непродолжительные задачи. Иначе в ситуации, когда все узлы надолго заняты, становится весьма проблематичным заниматься отладкой своей программы - каждый запуск предваряется продолжительным ожиданием, в несколько чаcов или иногда в несколько дней.

В связи с этим очереди bl2x220g7q, xl230g9q и teslaq модифицированы таким образом, что по крайней мере по одному серверу каждого типа выделены только для запуска задач с walltime до 1 часа включительно. Также часть узлов из очередей bl2x220g7q и xl230g9q зарезервированы для задач с временем работы не более 72 часов включительно. На остальных узлах могут запускаться задачи с walltime до 480 часов включительно.

С точки зрения постановки задач в очередь при этом ничего не изменилось - пользователь должен запрашивать ту очередь, которая соответствует узлам нужного типа (например, teslaq). Но итоговая очередь, в которой будет работать задача, будет называться немного по другому (например, tesla_short или teslaq_long). Это перенаправление в очередь с другим именем будет производиться самим планировщиком. Поставить задачу непосредственно в эту очередь (запросив её через #PBS -q tesla_short) нельзя.