Servernedbrud i uge 13
Hej brugere,
Som mange har bemærket, har der været forstyrrelser på portalen siden tirsdag, mens mail og debat tjenesten har været helt nede siden onsdag.
Det er til stor ærgrelse for os på redaktionen såvel som i IT afdelingen i Sverige. Siden januar måned er tingene blevet mere stabile på SOL.dk. Nedbruddet skyldes, at vores NetApp kom på overarbejde. En bug opstod, da teknikkerne var i gang med at rydde op på serverne. Her i foråret er det planlagt at flytte eksisterende tjenester og databaser til nyere hardware. Den gamle er forældet og efterårets ustabilitet har været utilfredsstillende for alle.
For den interesserede følger her en kort beskrivelse af nedbruddet.
1. Vores udbyder påbegyndte sletning af forældede filer (gamle Eniro kort og søgedata) på NettApp (fælles server lagring). Dette sker på foranledning af vores svenske IT afdeling, og gøres før vi flytter NetApp til ny hardware, da vi ikke ønsker at flytte et par terrabytes af gamle sager.
2. Vores udbyder opdagede at NetApp volume 6 arbejde med en load på 99%, hvilket resulterede i en meget langsom disk performance. Til eksempel har din computer også svært ved at skifte mellem forskellige vinduer og udføre kommandoer, hvis dens CPU (processorer) er på 100%.
3. Vores udbydere stoppede med at slette gamle data.
4. Load på NetApp06 faldt langsomt til 90%. Vores udbyder og svenske IT afdeling blev enige om at vente og se om faldet fortsatte.
5. Load gik op til 99% og vi tog kontakt til en NetApp leverandør, som skulle reparere NetApp.
6. Leverandøren opdager en bug i NetApp, som betyder, at NetApp opfører sig underligt, hvis store mængder af data slettes. Herefter påbegyndte en opgradering af NetApp softwaren til en nyere version. Ifølge leverandøren vil dette få NetApp til at opføre sig normalt igen.
7. Onsdag eftermiddag var NetApp stadig under opgradering.
8. Torsdag middag er login begyndt at virke sporadisk, men vi er endnu ikke helt hjemme endnu.
De services som direkte har været påvirket er
- Login
- Debat
- CMS, redaktionens publiceringssystem
Da “Login” har været påvirket, har det betydet, at alle de tjenester, der benytter login også er påvirket. Det vil sige
- webmail
- profil
Mails sendt til @sol.dk er altså ikke påvirket af fejlene. Det er brugerens adgang, der desværre ikke har været mulig.
Problemet er stadig ikke løst 100% og vi kan desværre ikke sætte et tidspunkt på endnu.
Jeg håber denne lille update giver Jer et indblik i problemet og en forståelse for at vi arbejder på sagen.
Med venlig hilsen
Scherz
Som mange har bemærket, har der været forstyrrelser på portalen siden tirsdag, mens mail og debat tjenesten har været helt nede siden onsdag.
Det er til stor ærgrelse for os på redaktionen såvel som i IT afdelingen i Sverige. Siden januar måned er tingene blevet mere stabile på SOL.dk. Nedbruddet skyldes, at vores NetApp kom på overarbejde. En bug opstod, da teknikkerne var i gang med at rydde op på serverne. Her i foråret er det planlagt at flytte eksisterende tjenester og databaser til nyere hardware. Den gamle er forældet og efterårets ustabilitet har været utilfredsstillende for alle.
For den interesserede følger her en kort beskrivelse af nedbruddet.
1. Vores udbyder påbegyndte sletning af forældede filer (gamle Eniro kort og søgedata) på NettApp (fælles server lagring). Dette sker på foranledning af vores svenske IT afdeling, og gøres før vi flytter NetApp til ny hardware, da vi ikke ønsker at flytte et par terrabytes af gamle sager.
2. Vores udbyder opdagede at NetApp volume 6 arbejde med en load på 99%, hvilket resulterede i en meget langsom disk performance. Til eksempel har din computer også svært ved at skifte mellem forskellige vinduer og udføre kommandoer, hvis dens CPU (processorer) er på 100%.
3. Vores udbydere stoppede med at slette gamle data.
4. Load på NetApp06 faldt langsomt til 90%. Vores udbyder og svenske IT afdeling blev enige om at vente og se om faldet fortsatte.
5. Load gik op til 99% og vi tog kontakt til en NetApp leverandør, som skulle reparere NetApp.
6. Leverandøren opdager en bug i NetApp, som betyder, at NetApp opfører sig underligt, hvis store mængder af data slettes. Herefter påbegyndte en opgradering af NetApp softwaren til en nyere version. Ifølge leverandøren vil dette få NetApp til at opføre sig normalt igen.
7. Onsdag eftermiddag var NetApp stadig under opgradering.
8. Torsdag middag er login begyndt at virke sporadisk, men vi er endnu ikke helt hjemme endnu.
De services som direkte har været påvirket er
- Login
- Debat
- CMS, redaktionens publiceringssystem
Da “Login” har været påvirket, har det betydet, at alle de tjenester, der benytter login også er påvirket. Det vil sige
- webmail
- profil
Mails sendt til @sol.dk er altså ikke påvirket af fejlene. Det er brugerens adgang, der desværre ikke har været mulig.
Problemet er stadig ikke løst 100% og vi kan desværre ikke sætte et tidspunkt på endnu.
Jeg håber denne lille update giver Jer et indblik i problemet og en forståelse for at vi arbejder på sagen.
Med venlig hilsen
Scherz