Решение описанной ниже проблемы заняло 6 месяцев. Было перепробовано множество различных решений, обновлений, изменений таймеров, перелопачено куча форумов и коммьюнити. В конечном итоге решение было найдено экспериментально с помощью техподдержки VMware.
Описание работы системы: организовано резервное копирование виртуальных машин с помощью Veritas NetBackup. Одним из вариантов резервного копирования виртуальных машин является создание снапшотов этих машин и запись их на ленточное хранилище. Этот вариант не самый лучший, поскольку создание снапшотов виртуальных машин в принципе нельзя рассматривать как полноценный бэкап: есть вероятность возникновения ошибок ввода-вывода с последующим созданием "inconsistent backup". Тем не менее этот вариант был выбран и реализован, поскольку позволял вместо общей LAN использовать SAN-сеть для бэкапа, что увеличивало скорость копирования в существенное количество раз и разгружало LAN.
Перед резервным копированием машины через создание снапшота необходимо в идеале выключить виртуальную машину, но в продакшене это сделать проблематично. Поэтому используются специальные pre_- и post_freeze_scripts, которые останавливают нужные сервисы до создания снапшота, а потом восстанавливают работоспособность сервисов после завершения создания снапшотов. Такие скрипты используются и в других продуктах по созданию резервных копий, и даже в базе знаний VMware есть KB, посвященные созданию нужных скриптов.