УРАН розв'язує проблему з хмарними послугами, що спровокована підвищеним попитом на віртуальні машини під час війни

Опубліковано: 27 вересня 2022

joshua-sortino-LqKhnDzSF-8-unsplash

Після повномасштабного вторгнення Росії в Україну 24 лютого 2022 року серед користувачів УРАН – національної науково-освітньої мережі (НРЕН) України – значно підвищився попит на віртуальні машини, адже заклади потребували убезпечення даних від можливих руйнувань фізичної інфраструктури. УРАН запропонував свої хмарні послуги безплатно, і пропозицією скористалося багато вишів, але підвищений попит призвів до неочікуваної кризи через перевантаження дискового сховища в дата-центрі УРАН.

Проблема

На початку вересня всі віртуальні машини, які працювали у хмарному просторі УРАН, раптово зупинилися. Перестали працювати послуги eduGAIN та eduVPN, а також системи управління навчанням (LMS) Харківського національного економічного університету імені Семена Кузнеця та Одеського державного аграрного університету – й процес дистанційного навчання було заблоковано. Навіть доменні імена, зареєстровані для користувачів УРАН, перестали працювати через відключення DNS-серверів. Щоб з’ясувати та усунути причину кризи, технічній команді УРАН знадобилося 12 годин.

Пошук причини

– Перший крок у подібних ситуаціях – діагностика. Вона виявилася непростою, адже усі діагностичні засоби показували відсутність будь-яких проблем, і при цьому нічого не працювало, – розповідає виконавчий директор УРАН Євгеній Преображенський.

Технічні фахівці УРАН звернули увагу на те, що один із дисків у хмарному сховищі заповнений більш ніж на 95%.

Відмовостійка система збереження даних «Ceph», що її використовують у хмарному сховищі УРАН, надсилає попередження в разі заповнення одного з дисків понад певну норму. Коли диск заповнений на 85%, надходить попередження «замалим не повний» («nearfull»), при  заповненні на 90% це буде «майже повний» («backfillfull»), а на 95% – «повний» («full»).

Олег Юрченко, системний адміністратор УРАН

“Раніше ми вважали, що ці попередження не спричиняють жодних дій з боку системи. Втім, після вивчення всієї документації про систему збереження даних «Ceph» ми знайшли невелику примітку: в разі заповнення на 95% бодай одного диска весь кластер переводиться в режим «лише читання» («read-only») та блокує систему, аби убезпечити й зберегти дані”

Розв'язання проблеми

Проблему вирішували в три етапи. Першочерговим завданням було розблокувати роботу віртуальних машин, адже вони не працювали 8 годин, а далі – усунути причину аварії та запобігти її повторенню.

– Спочатку ми підвищили норму, що відповідає повному заповненню диска, з 95% до 97%, – пояснює Олег Юрченко. – Наступним кроком стало перебалансування системи. Коли якийсь диск використовується системою «Ceph» більше за інших, можна зменшити його ваговий коефіцієнт і тим самим розвантажити цей диск внаслідок трохи більшого завантаження інших. Ми зменшили ваговий коефіцієнт заповненого диска, це дозволило перейти до третього етапу й остаточного усунення проблеми шляхом введення в кластер додаткових дисків. До системи під’єднали ще один сервер, який УРАН придбав раніше в рамках проєкту EaPConnect.

Новий сервер мав 5 дисків по 4 терабайти кожен, ці диски взяли на себе навантаження, й кластер стабілізувався повністю.

“У результаті користувачі дістали стабільну та надійну хмарну послугу. Студенти й викладачі отримали доступ до віртуального навчального простору, сайти університетів запрацювали, відновилось дистанційне навчання. До того ж тепер ми готові приймати заявки на нові віртуальні машини, адже попит на цю послугу в умовах війни залишається вкрай високим”

Євгеній Преображенський, виконавчий директор УРАН

Майбутній розвиток

Хоча додавання 5 дисків задовольнить сьогоднішній попит, вважають в УРАН, воно не забезпечить сталого розвитку в майбутньому. Тому, дивлячись уперед, УРАН планує придбати додаткові сервери в рамках проєкту EaPConnect, де представляє інтереси української науково-освітньої спільноти.

Також команда УРАН опрацьовує технічний проєкт дообладнання старих серверів новими СДД-дисками, що мають набагато більшу швидкість читання й запису інформації та можуть використовуватись як дворівневий дисковий накопичувач. Це покращить надання хмарних послуг та допоможе УРАН йти в ногу з часом.

EaPConnect

Проєкт EaPConnect, що фінансується Європейським Союзом, є частиною європейської ініціативи EU4Digital. Проєкт має на меті об’єднати дослідницькі й освітні спільноти ЄС і країн Східного партнерства, а також зменшити цифровий розрив.