Сбои в работе «Хостмастера» и ResellerClub

25 января 2013, Марина Зайцева

На этой неделе произошли сбои по нескольким доменным фронтам: у крупнейшего международного регистратора доменов и хостера ResellerClub возникли проблемы с панелью управления и API, а также произошёл сбой в системе регистрации доменов UAEPP у компании «Хостмастер» — администратора домена .UA и других украинских доменов.

На небольшом примере общения двух компаний со своими партнёрами и регистраторами хочу показать вам эту небольшую, но существенную разницу в ведении бизнеса.

ResellerClub

Сообщения в социальных сетях:

@ResellerClub: We’re experiencing some issues that affect the Control Panel, SuperSite & API & they should be resolved in 2 hrs. Thanks for your patience

TeamResellerClub: We’re experiencing some issues with our system that affect the Control Panel, SuperSite & the API. We’re working our hardest to fix it at the moment and will have an update for you very soon. You can also follow the issue on our forum — http://bit.ly/W12vjY

А после того, как проблема была решена, пришёл подробный отчёт о том, что же всё-таки произошло, какие меры были приняты, чтобы это больше не повторилось, и что компания глубоко сожалеет, что причинила неудобства всем своим клиентам:

Yesterday, there was an emergency maintenance that was carried out on our platform servers due to which you may have not been able to access your Control Panel. The downtime lasted for a few hours and we can confirm that none of your orders or data was lost during the downtime. To help you understand this downtime, here is a summary of what happened.
At 10:49 UTC, our systems operators executed a command line that overwrote a few config files within our platform database. While all data remained secure, the files that were overwritten caused the database to stop functioning. This affected all platform related services (Control Panel, API & Whois).
Immediately, our monitoring systems detected the problem and we shutdown the platform to avoid the replication of the broken database structure and avoid any inconsistency issues. Following this, we started inspecting our database consistency and switched over to a standby database when necessary.
The verification of our database was a fairly lengthy process where our systems, software engineering and management teams started verifying each and every database and table to ensure that all transactions that were applied on the primary database were also applied on the standby database. This took a while as we had to bring up the primary database first and restore the postgres system data files to identify all platform related databases.
At 16:37 UTC, all data was perfectly verified, tested and subsequently made live. We will be reviewing this incident and come up with standard operating procedures to ensure that such a downtime does not reoccur.
We have added layers of security to all server config directories. This will make sure that we do not modify or overwrite server config files at any point of time. We will also be setting up new SOPs to check data consistency across our slave databases in a much faster manner.
We deeply regret the inconvenience caused during the downtime. Our teams worked diligently during the restore process and have now restored a fully functioning platform to our standby servers. We will need to switch back to our primary servers for which we have scheduled a one hour maintenance window on Sunday, 27th January, 2013 at 04:30 UTC.

Хостмастер

Отмечу, что я опустила то множество писем, вопросов и проблем, которые возникли из-за сбоя, и на которые, увы, ответы даны не были.

Сообщения в рассылке регистраторов:

14:24 (пишет один из регистраторов)
Здравствуйте.
Вероятно сейчас должно было прийти письмо-уведомление что UAEPP ушел в оффлайн… Но нету… Странно…
https://epp.hostmaster.ua/auth/ говорит «Сервіс тимчасово недоступний»
EPP сервер также в дауне…
14:28 (пишет представитель «Хостмастера»)
Добрый день!
Сервис EPP временно недоступен.
Время восстановления — 10 минут.
Приносим извинение за вынужденный останов.

И «подробное» объяснение проблемы после устранения сбоя:

Из-за технического сбоя в системе регистрации доменных имен UAEPP регистраторы и регистранты в публичных доменах Полтавы, Ивано-Франковска и Херсона могли получить ошибочное уведомление об окончании срока регистрации доменного имени.
Вся информация о доменных именах в указанных публичных доменах восстановлена из резервной копии.
Приносим свои извинения за доставленные неудобства.
Последствия сбоя ликвидированы. Можно работать в обычном режиме.

При сбое в системе регистрации доменов UAEPP клиенты регистраторов получили ложные уведомления о сроке действия их доменов, и «отгребать» за это будет вовсе не «Хостмастер», а сами регистраторы и их служба поддержки.

Мне искренне хочется, чтобы уровень сервиса и ответственности в нашей стране был хотя бы на десятую часть таким, как у некоторых локальных и международных компаний.

P.S. Все сообщения, процитированные в этой заметке, были отправлены адресатам общей рассылки без пометки о том, что их нельзя публиковать.

Вы можете перейти в конец и оставить комментарий. Уведомления сейчас отключены.

Подпишитесь на новости: