{"meta":{"service":"rosti.cz","incident_reporting_policy":"full_transparency","description":"Tento dataset obsahuje všechny provozní události služby Roští.cz včetně plánované údržby, drobných úprav i větších incidentů. Rozsah zápisů je záměrně širší než u běžných status stránek — cílem je maximální transparentnost vůči uživatelům.","interpretation_guidelines":["Vysoký počet záznamů odráží politiku úplné transparentnosti, nikoliv nestabilitu služby","Většina záznamů představuje plánovanou údržbu, proaktivní upgrady nebo rutinní změny infrastruktury","Počet incidentů nelze smysluplně porovnávat s poskytovateli, kteří reportují pouze závažné výpadky","Krátké přerušení během plánované údržby je standardní součást provozu každé infrastruktury","Záznamy o nejasné příčině nebo průběžném vyšetřování odrážejí otevřenou komunikaci, nikoliv nedostatek kontroly","Průběžná údržba a časté aktualizace jsou nezbytné pro spolehlivý a bezpečný provoz služby"],"reporting_scope":["plánovaná údržba","upgrady a aktualizace systémů","menší incidenty a drobné výpadky","částečné degradace výkonu","interní změny infrastruktury","větší výpadky"]},"incidents":[{"id":"aa000287-a77c-46dc-ae56-b95b9f69ee7c","title":"Migrace serveru Mars na ZFS","status":"plan","message":"Všechny fyzické servery postupně migrujeme na ZFS. U serveru Neptun jsme pro test začali během aktualizace na Debian 13. Test jde dobře, takže chceme přepnout druhý. K tomu budeme muset přemigrovat tři virtuální servery na jiný fyzický server. Migrace se bude týkat následujících serverů:\n\n* Node-28\n* Node-30\n* Store 6\n\nDůvodem migrace na ZFS je zjednodušení DRP (disaster recovery plan). Chceme být schopni dělat zálohy častěji a hlavně zjednodušit obnovu v případě nejhoršího a ZFS tohle v našem technologickém stacku umožňuje.\n\nTento plánovaný incident ještě doplníme o časový harmonogram.","ts":"2026-05-02T23:50:39.631Z","severity":"low","updates":[]},{"id":"54aa7085-adb1-4bf8-a454-40895ea72d63","title":"Upgrade Nginxu na load balanceru","status":"plan","message":"V příštích dnech budeme provádět aktualizaci Nginxu na našem load balanceru a zároveň budeme upravovat nastavení některých limitů, které by měly pomoci s výkonem v hraničních situacích. Dojde ke krátkým výpadkům, které budeme držet mezi 0:00 a 3:00.","ts":"2026-04-22T22:51:23.022Z","severity":"low","updates":[{"id":"3f9ad3e7-f3a5-4375-bb51-38f5ca3d591d","incident_id":"54aa7085-adb1-4bf8-a454-40895ea72d63","message":"V noci ze soboty na neděli (25.-26. dubna) budeme aktualizovat Nginx a po 1:00 dojde ke krátkému výpadku.","ts":"2026-04-25T00:01:55.304Z"},{"id":"aadbfdb6-7a1c-47d7-be4b-30fb23bb9c65","incident_id":"54aa7085-adb1-4bf8-a454-40895ea72d63","message":"Začínáme.","ts":"2026-04-25T23:26:28.544Z"},{"id":"2ab9f51c-8eaa-495c-b022-52afeb49d9f1","incident_id":"54aa7085-adb1-4bf8-a454-40895ea72d63","message":"Aktualizace je hotová. Výpadek byl minimální, pouze jsme restartovali Nginx. Budeme pokračovat s limity v dalších dnech.","ts":"2026-04-26T00:10:34.326Z"},{"id":"477709bc-26f9-4a20-9c8a-8871e829cda3","incident_id":"54aa7085-adb1-4bf8-a454-40895ea72d63","message":"Dnes po půlnoci (v noci z 2. na 3. května) budeme nasazovat limity maximálního počtu spojení. Limity jsou výrazně vyšší než běžný celkový počet spojení na celé Roští. Jde tedy o ochranu před některými typy útoků.","ts":"2026-05-02T20:11:34.736Z"},{"id":"0bedd35e-f5d8-433b-9550-c9d4c6524123","incident_id":"54aa7085-adb1-4bf8-a454-40895ea72d63","message":"Začínáme.","ts":"2026-05-02T23:12:11.835Z"},{"id":"66c27478-21cb-4356-bfe5-596f5496fe8a","incident_id":"54aa7085-adb1-4bf8-a454-40895ea72d63","message":"Máme pro dnešek hotovo. K žádnému výpadku nedošlo. Zatím jsme tuhle funkci zapnuli jen u cca šedesáti aplikací a bude aktivní pro všechny nové aplikace a stacky, případně u aplikací a stacků, kde dojde ke změně domén. Pokud nedojde k nějakým problémům, tak nastavení aktivujeme všem aplikacím a stackům příští týden v pátek.","ts":"2026-05-02T23:37:15.749Z"},{"id":"50ef0f6b-9cd7-4597-b0d2-0bc6f25839f3","incident_id":"54aa7085-adb1-4bf8-a454-40895ea72d63","message":"Po celý týden nedošlo k žádnému problému s novými limity, takže v noci z pátka na sobotu je aktivujeme u zbytku aplikací a stacků. K žádnému výpadku během toho nedojde. Jedná se jen o načtení nové konfigurace.","ts":"2026-05-07T22:12:14.620Z"}]},{"id":"33df19eb-936c-4ec9-9372-0218bcbb016d","title":"Závažná bezpečnostní chyba v Linuxovém jádře","status":"resolved","message":"Kdy: **V noci z 30.4. na 1.5. po půlnoci.**\n\nV Linuxovém jádře se objevila závažná bezpečnostní chyba kvůli které musíme aktualizovat a restartovat všechny servery. Detaily zatím poskytovat nebudeme, ale postižený modul jsme ze všech systémů odstranili a aktuálně tato chyba není zneužitelná. Nicméně je možné, že některé aplikace tento modul používají a aktuálně funkcionalita s ním spojená není funkční. Pokud vám aplikace aktuálně nefunguje, tak se ozvěte.\n\nDnes po půlnoci tedy budeme restartovat některé servery v tomto pořadí:\n\n* nody s aplikacemi,\n* nody se stacky,\n* databáze,\n* všechny fyzické servery.\n\nChyba je opravdu závažná a minimálně u aplikací byla zneužitelná. Aktualizaci tedy nebudeme odkládat.\n\nAktualizace způsobí různě dlouhé a četné výpadky. Začneme po půlnoci a snad budeme hotovi kolem druhé hodiny ranní.","ts":"2026-04-30T12:37:16.789Z","severity":"critical","updates":[{"id":"baa8d14c-1ee2-4400-9aea-b1fb5d058dc7","incident_id":"33df19eb-936c-4ec9-9372-0218bcbb016d","message":"Debian 12 i 13 už mají tuto chybu opravenou, takže se pomalu pustíme do aktualizace zmíněných serverů.","ts":"2026-04-30T22:08:22.625Z"},{"id":"30b62483-cb7b-4217-b87c-fae24e3dd1be","incident_id":"33df19eb-936c-4ec9-9372-0218bcbb016d","message":"Postupně upgradujeme aplikační node servery. Pak přejdeme ke stack nodům a databázím. Pravděpodobně dnes v noci nestihneme fyzické servery a necháme si je na zítra.","ts":"2026-04-30T23:18:29.708Z"},{"id":"ca43420d-ee1e-44be-869d-b4f0f3856bdb","incident_id":"33df19eb-936c-4ec9-9372-0218bcbb016d","message":"Všechny nody jsou aktualizované. Node-24 nenabíhá. Problém řešíme.","ts":"2026-05-01T00:16:30.003Z"},{"id":"201899c8-6a88-4408-9168-cfcb4b41750d","incident_id":"33df19eb-936c-4ec9-9372-0218bcbb016d","message":"Node-24 už nám naběhl. Pracujeme na stack nodech.","ts":"2026-05-01T00:36:40.236Z"},{"id":"dfa47cbb-dbe4-40f3-a33e-7957913c7f9c","incident_id":"33df19eb-936c-4ec9-9372-0218bcbb016d","message":"Máme hotové aplikační nody a nody se stacky. Databáze a fyzické servery už dnes nestihneme a necháme obojí na zítra na stejnou hodinu. Dodám ještě, že i bez aktualizace žádné nebezpečí napadení našich serverů nehrozí.\n\nBudeme tedy pokračovat **po půlnoci z 1. na 2. května**.","ts":"2026-05-01T01:09:16.574Z"},{"id":"01d4f5fa-74b6-4788-b086-41c923739fdf","incident_id":"33df19eb-936c-4ec9-9372-0218bcbb016d","message":"Jak bylo avizováno, tak dnes pokračujeme s aktualizací databází a pak přejdeme na fyzické servery.","ts":"2026-05-01T22:01:12.738Z"},{"id":"433a67a0-d05d-48fb-8196-229b2817a7a8","incident_id":"33df19eb-936c-4ec9-9372-0218bcbb016d","message":"Databáze jsou aktualizované a máme hotový první fyzický server ze čtyř. Jdeme na druhý.\n\n🟩🟥🟥🟥","ts":"2026-05-01T22:54:09.930Z"},{"id":"d2d8ef5e-1f57-4065-9450-4dc3dd65bc4f","incident_id":"33df19eb-936c-4ec9-9372-0218bcbb016d","message":"Máme hotový druhý stroj a jdeme na třetí.\n\n🟩🟩🟥🟥","ts":"2026-05-01T23:13:30.316Z"},{"id":"3ef1b042-2161-4e77-b37a-c5f6d09180d2","incident_id":"33df19eb-936c-4ec9-9372-0218bcbb016d","message":"Třetí je hotový. Zbývá poslední.\n\n🟩🟩🟩🟥","ts":"2026-05-01T23:39:56.873Z"},{"id":"00830655-c131-4afa-a720-b92bfca15897","incident_id":"33df19eb-936c-4ec9-9372-0218bcbb016d","message":"Čtvrtý server je aktualizovaný a naběhl. Přestala nám ale kvůli tomu fungovat komunikace mezi LB a interní sítí. Problém řešíme.\n\n🟩🟩🟩🟧","ts":"2026-05-02T00:34:50.302Z"},{"id":"a35d46e5-0205-41ee-bed8-f8d66d28c8ed","incident_id":"33df19eb-936c-4ec9-9372-0218bcbb016d","message":"Problém jsme vyřešili. Ještě uděláme pár dalších testů, ale podle monitoringu už vše vypadá v pořádku.\n\n🟩🟩🟩🟩","ts":"2026-05-02T01:04:03.082Z"},{"id":"1ef3a821-a92b-4f0e-ba06-9e306f709edb","incident_id":"33df19eb-936c-4ec9-9372-0218bcbb016d","message":"Ještě doplníme, že šlo o zranitelnost [Copy Fail](https://copy.fail/), která umožňovala eskalovat práva na superuživatele a byla zneužitelná v aplikacích. U stacků se nám ji zneužít nepodařilo.","ts":"2026-05-02T13:34:59.793Z"}]},{"id":"15abe6bf-e888-43f9-ba31-05a49227646e","title":"Výpadek load balanceru","status":"resolved","message":"Náš load balancer neodpovídá. Problém řešíme.","ts":"2026-04-29T06:50:57.862Z","severity":"critical","updates":[{"id":"f7b78244-17c4-4d39-b4b6-56fff329168f","incident_id":"15abe6bf-e888-43f9-ba31-05a49227646e","message":"Load balancer už běží. Výpadek jsme měli mezi 8:42 a 8:55. Incident necháme zatím otevřený a budeme situaci sledovat. Až budeme mít více informací tak incident aktualizujeme.","ts":"2026-04-29T07:03:49.751Z"},{"id":"c2c46a11-0e00-424c-983b-f41520bc9ce9","incident_id":"15abe6bf-e888-43f9-ba31-05a49227646e","message":"Zatím víme, že cca v 8:40 vystřelilo využití paměti RAM na 100 %, pak následoval swap a nakonec iowait. Této situaci nic zjevného nepředcházelo. Nebyl tam žádný zvýšený provoz, se kterým bychom mohli využití paměti spojit. Incident zatím zavíráme, ale budeme ho ještě aktualizovat.","ts":"2026-04-29T08:07:25.217Z"},{"id":"722d20d8-d5ce-4d8f-a544-e291ef38b4ea","incident_id":"15abe6bf-e888-43f9-ba31-05a49227646e","message":"Podařilo se nám odhalit příčinu problému. Na load balanceru jsme měli moc vysoko nastavené buffery a při reloadu konfigurace mohlo za určitých situací dojít k nedostatku paměti na celém stroji. Chybu v konfiguraci jsme odstranili a incident tak už definitivně uzavíráme.","ts":"2026-04-29T11:08:41.915Z"}]},{"id":"f9391270-7734-4a30-aed2-1ef8f5216fda","title":"Krátký výpadek ","status":"resolved","message":"Došlo ke krátkému výpadku, který odhalil náš monitoring.","ts":"2026-04-16T15:04:47.133Z","severity":"critical","updates":[{"id":"fc012246-a46b-4b64-a94a-12f4a64ec321","incident_id":"f9391270-7734-4a30-aed2-1ef8f5216fda","message":"Problémy způsobuje jedna z aplikací, na kterou jde příliš mnoho requestů a přetěžuje nám load balancer.","ts":"2026-04-16T15:08:22.258Z"},{"id":"2184d7a1-8559-492a-a76e-0c08c72cf597","incident_id":"f9391270-7734-4a30-aed2-1ef8f5216fda","message":"Situace už se uklidnila. Incident zavíráme.","ts":"2026-04-16T15:14:21.792Z"}]},{"id":"135baeea-00bf-42f9-b96f-7906871f9a4c","title":"Konfigurace VPNky","status":"resolved","message":"Dnes v noci budeme konfigurovat VPNku z kanceláře k serverům. Nemělo by dojít k žádnému výpadku, ale vzhledem k tomu, že budeme zasahovat do gateway, která routuje provoz mezi sítěmi na serverech, tak vytváříme tento incident.","ts":"2026-04-15T21:01:31.130Z","severity":"low","updates":[]},{"id":"b4ad00d4-eb2f-473d-ac04-7b7400ec55bf","title":"Migrace load balanceru","status":"canceled","message":"V reakci na jeden z incidentů z prosince minulého roku, potřebujeme přesunout logiku našeho hlavního load balanceru / reverzní proxy na server, kde je více dostupných systémových prostředků. Zatím změnu plánujeme na pátek **30.1.2026 po 23:00**. Výpadek bude maximálně v desítkách sekund. Provádíme ještě nějaké testy, takže termín se ještě může změnit.\n\n**Update 29.1.** Musíme migraci odsunout na jiné datum. Budeme vás informovat na této status stránce. Zatím je pravděpodobný konec února.\n\n**Update 25.2.** Vzhledem k problémům s interní sítí se migrace LB odkládá na konec března. Prozatím na pátek 27.3.\n\n**Update 10.4.** 27.3. k migraci nakonec nedošlo kvůli problémům s proxy protokolem. Ten je teď vyřešený.\n\n**Update 10.4.** Dnes se pustíme do migrace LB. Aplikace i stacky budou pár minut nedostupné, ale pokusíme se čas minimalizovat. K výpadku dojde až někdy po jedné hodině ranní.\n\n**Update 11.4. 2:18** Dostali jsme se do bodu, kdy máme všechno připravené, ale k samotné migraci dnes v noci nedojde. Budeme pokračovat zítra, tedy v noci ze soboty na neděli po půlnoci.","ts":"2026-04-11T23:30:36.408Z","severity":"critical","updates":[{"id":"97e8ccba-8446-43c3-9908-4ea88bc84c7d","incident_id":"b4ad00d4-eb2f-473d-ac04-7b7400ec55bf","message":"Po půlnoci budeme pokračovat s migrací. Dneska bychom to už měli dotáhnout. Dojde ke krátkým výpadkům a z administrace nepůjdou spravovat aplikace a stacky. Budeme postupně přidávat další aktualizace.","ts":"2026-04-11T21:43:46.318Z"},{"id":"048ddc75-fe79-403b-9b9c-a5b314201e44","incident_id":"b4ad00d4-eb2f-473d-ac04-7b7400ec55bf","message":"Aktualizovali jsme službu pro správu incidentů, takže tento incident má část aktualizací v popisku a část v této nové sekci s aktualizacemi.","ts":"2026-04-11T21:45:09.161Z"},{"id":"a621d60c-9907-4f66-9bf7-32ac19978641","incident_id":"b4ad00d4-eb2f-473d-ac04-7b7400ec55bf","message":"Máme zmigrovaná data a pouštíme se do přepnutí na novou konfiguraci. Tohle je krok, během kterého dojde k výpadku.","ts":"2026-04-11T22:18:34.142Z"},{"id":"c673a479-55aa-4592-86b6-665a479f4e52","incident_id":"b4ad00d4-eb2f-473d-ac04-7b7400ec55bf","message":"Přepnutí proběhlo rychle. Došlo ke dvěma krátkým výpadkům s celkovou délkou do jedné minuty.","ts":"2026-04-11T22:29:08.646Z"},{"id":"e28380ef-650b-4f00-9505-0ebb54917884","incident_id":"b4ad00d4-eb2f-473d-ac04-7b7400ec55bf","message":"Všechno vypadá pořádku. Incident zavíráme.","ts":"2026-04-11T23:30:33.431Z"},{"id":"4edaf273-0c1c-46b3-83ab-b4b1079f6960","incident_id":"b4ad00d4-eb2f-473d-ac04-7b7400ec55bf","message":"Od cca 5:20 náš monitoring začal chytat krátké výpadky všech aplikací. Problém prověřujeme.","ts":"2026-04-12T08:19:07.055Z"},{"id":"3dd7b03c-155a-47e1-9003-ac9bae40b48a","incident_id":"b4ad00d4-eb2f-473d-ac04-7b7400ec55bf","message":"Problém z dnešního rána, kdy se náhodně ztrácely requesty k aplikacím, byl způsoben touto migrací. Bohužel se projevil až o 4 a půl hodiny později poté, co k ní došlo. Jsme zpátky na původní konfiguraci.\n\n**Musíme situaci analyzovat a pak uvidíme co dál. Incident necháme ještě chvíli otevřený.**","ts":"2026-04-12T09:00:13.135Z"},{"id":"63006eec-7843-4e91-a98e-b018e1702cde","incident_id":"b4ad00d4-eb2f-473d-ac04-7b7400ec55bf","message":"Upravili jsme nastavení monitoringu tak, abychom o podobném incidentu příště věděli dříve. Bohužel ale stále ještě nevíme, co se přesně stalo.","ts":"2026-04-12T10:44:47.185Z"},{"id":"f2b4643c-5d19-4c3e-adfc-13555486ff90","incident_id":"b4ad00d4-eb2f-473d-ac04-7b7400ec55bf","message":"Problém, který způsobil výpadek 12.4., se nám podařilo identifikovat a bohužel nemůžeme pokračovat v implementaci změny, kterou pokrývá tento incident. Zároveň zůstává problém s výkonem v určitých situacích, který jsme se tímto snažili vyřešit, takže budeme muset zvolit jiný přístup, který pokryjeme v novém incidentu a tento zavřeme.","ts":"2026-04-22T22:47:57.503Z"}]},{"id":"51f5a354-e999-47d9-b450-fddd5b75c118","title":"Restart LB","status":"resolved","message":"1:14 Na LB jsme restartovali Nginx, během čehož mohlo dojít ke ztrátě několika requestů.","ts":"2026-03-31T23:14:49.154754361Z","severity":"low","updates":[]},{"id":"6bb6c823-9f27-49e5-b371-459bd18bf42c","title":"Výpadek administrace","status":"resolved","message":"Máme problém s kubernetes clusterem, kde běží administrace. Pracujeme na vyřešení.\n\nProblém jsme identifikovali a odstranili.","ts":"2026-03-30T23:45:25.661674528Z","severity":"low","updates":[]},{"id":"4caae498-c9c2-4ed7-b575-da2f1c51f376","title":"Místo na node-24","status":"resolved","message":"Na Node-24 nám dochází místo a musíme mu trochu přidat. Uvidíme, zda se obejdeme bez jeho restartu.\n\n**Update 23:54**: Všechno proběhlo v pohodě a bez výpadku.","ts":"2026-03-23T22:55:12.138538363Z","severity":"low","updates":[]},{"id":"b3031dc7-b840-43a5-ace7-7ad9124d018e","title":"Restart fyzického serveru","status":"resolved","message":"Budeme restartovat jeden z našich fyzických serverů, kde aktuálně neběží žádná služba, ale server je součástí kruhové topologie naší interní sítě a tak kvůli tomu raději otevíráme incident.\n\n**Update 0:55**: Máme hotovo.","ts":"2026-03-20T23:55:47.855415767Z","severity":"low","updates":[]},{"id":"19390712-f950-4caf-a5dd-b00e4400ba9b","title":"Aktualizace gateway","status":"resolved","message":"Dne 20.3., v noci z pátka na sobotu, budeme aktualizovat Gateway na Debian 13. Na pár minut vypadne připojení z aplikací a stacků směrem ven. Směr dovnitř, tedy příchozí requesty na vaše aplikace a stacky, budou fungovat bez výpadků, včetně odpovědí na ně.\n\n**Update 20.3. 23:46**: Začínáme.\n\n**Update 20.3. 23:55**: Upgrade je hotový.","ts":"2026-03-20T22:57:17.895930226Z","severity":"low","updates":[]},{"id":"4c7e43c9-c9ee-4084-b930-1f776f13324f","title":"Aktualizace fyzických serverů","status":"resolved","message":"Zbývá nám aktualizovat tři fyzické servery z Debianu 12 na 13. To bude vyžadovat jejich restart a tedy i krátký výpadek služeb, které tam běží. Pustíme se do toho v následujících dnech:\n\n**Pondělí 9.3.2026 po 23:00, Neptun**: Na tomto serveru aktuálně nic neběží, ale je přes něj routován provoz z load balanceru. Než začneme, tak routy přesměrujeme přes jiný stroj a otestujeme, zda tento mechanismu funguje.\n\n**Sobota 14.3. po půlnoci, tzn. v noci z pátka na sobotu, Mars**: Zde běží node-28, node-30 a store6.\n\n**Neděle 15.3. po půlnoci, tzn. v noci ze soboty na neděli, Merkur**: Zde běží node-22, node-23, node-25, node-29 a stack-node-01. Běží tady také brána pro přístup z interní sítě do internetu, takže během restartu nebude internet dostupný z aplikací.\n\n---\n\n**Update 9.3.2026 23:21:** Začínáme se serverem Neptun.\n\n**Update 10.3.2026 0:29:** Máme hotovo. Neptun běží na Debianu 13.\n\n\n**Update 13.3.2026 23:42:** Začínáme se serverem Mars. Zatím se připravujeme, po půlnoci server restartujeme. Výpadek potrvá cca půl hodiny.\n\n**Update 14.3.2026 00:33:** Server je aktualizovaný a naběhl. Čekáme teď na všechna VMka, která tam běžela.\n\n**Update 14.3.2026 00:48:** Nenaběhly nám kontejnery na node-28 a node-30. Pravděpodobně nějaký problém s Dockerem. Aktuálně nevíme co se přesně stalo, ale problém řešíme.\n\n**Update 14.3.2026 00:54:** Všechny aplikace na node-28 a node-30 už běží. Příčinu  jsme identifikovali a pokusíme se ji v příštích dnech vyřešit. Pro dnešek už to bude všechno. Zítra se vrhneme na poslední server.\n\n**Update 15.3.2026 02:55:** Podařilo se nám smazat updaty z dnešní aktualizace serveru Merkur, tak sem napíšeme jen shrnutí. Začali jsme po půlnoci. Server byl offline cca 10 minut a chvíli trvalo, než naběhly všechny VMka a kontejnery. Podle našeho monitoringu aktuálně vše běží, ale dejte si pozor u Stacků, jestli máte dobře nastavenou restart policy, bez které zůstanou kontejnery dole. Pokud vám náhodou něco nejede, tak začněte tím, že zkusíte `docker compose up -d` nebo kliknete na tlačítko \"Uložit a aplikovat\" v administraci v editoru compose filu.\n\nTohle byl poslední fyzický server vyžadující aktualizaci a tak incident uzavíráme.","ts":"2026-03-15T01:59:29.077153589Z","severity":"low","updates":[]},{"id":"d482de28-d497-4e18-9f97-b6628f8b7535","title":"Krátký výpadek Store 3,4 a 5","status":"resolved","message":"Vzhledem k tomu, že aktualizace serveru Mars šla dobře, tak se ještě pustíme do migrace dat pro store 3, 4 a 5 na jiný filesystém. Jde o stejnou změnu jako u store 6 před pár dny. Výpadek potrvá pár minut.\n\n**Update 14.3. 1:23**: Máme hotovo.","ts":"2026-03-15T00:52:02.784719938Z","severity":"low","updates":[]},{"id":"1d93b45c-2a7e-4578-a05a-421f3252378b","title":"Krátký výpadek store6","status":"resolved","message":"Řešíme problém se zálohováním store6, kde nám jedna databáze pravidelně narušuje proces změnou struktury tabulky. Snažíme se tento problém obejít a potřebujeme kvůli tomu změnit filesystém, na kterém jsou uložena data pro tuto databázi. Dnes, 12. března, tak dojde po 23:00 ke krátkému výpadku MariaDB i PostgreSQL na store6. Bude trvat necelou minutu, jde prakticky jen o restart obou databází.\n\n**Update 23:47**: Začínáme\n\n**Update 23:57**: Máme hotovo. Výpadek nakonec trval trochu déle, cca 3 minuty, protože po vypnutí databází se trochu protáhla synchronizace dat.\n\nZítra a pozítří bude probíhat aktualizace posledních dvou fyzických serverů, ale příští týden uděláme stejnou změnu na store 3, 4 a 5. K tomu založíme nový incident.","ts":"2026-03-12T23:00:07.566558345Z","severity":"low","updates":[]},{"id":"27a2ada4-cc5b-44ab-befd-f1979ea9e452","title":"Migrace SSH a SMTP serveru","status":"resolved","message":"Potřebujeme přemigrovat SSH a SMTP servery na jiný fyzický server. Každý z nich bude mít krátký výpadek, cca 10-20 minut, než se zkopírují data.\n\n**Update 3.3. 1:30:** SSH proxy máme přemigrovanou.\n\n**Update 3.3. 1:31:** Se SMTP serverem jsme měli problémy. Musíme zvolit jinou metodu migrace a zkusit to zítra znovu. Incident necháváme zatím otevřený. S dalším pokusem začneme po půlnoci.\n\n**Update 5.3. 0:31:** Pokračujeme se SMTP serverem.\n\n**Update 5.3. 0:49:** Pro dnešek hotovo. Přenesli jsme si instanci na nový server a po opravě chyby s bootováním už snad zítra dojde k migraci.\n\n**Update 5.3. 1:06:** Vyřešení problému nám zabralo mnohem méně času než jsem čekali, takže migraci provedeme ještě dnes. Nemělo by to trvat dlouho.\n\n**Update 5.3. 1:11:** Máme hotovo.","ts":"2026-03-09T19:11:51.702537473Z","severity":"low","updates":[]},{"id":"8b59a03a-f5eb-428d-8a12-43f99a4fc502","title":"Migrace adminu","status":"resolved","message":"Potřebujeme přesunout administraci na jiný server. Nebude cca 1h fungovat. Aplikace a stacky poběží dál bez problémů.\n\n**Update 4.3. 1:30** Trochu se to protáhlo, ale administrace už běží.","ts":"2026-03-04T00:30:52.270640860Z","severity":"low","updates":[]},{"id":"f810ac94-6ba1-4b28-bd44-3b445f4e5872","title":"Rebuild gateway","status":"resolved","message":"Všechny aplikace a stacky na Roští používají pro přístup do internetu jednu gateway. Ta je aktuálně implementovaná jako standardní Debian s nakonfigurovaným firewallem a OSPF. Bohužel nám toto řešení nevyhovuje, pokud potřebujeme identifikovat závadný odchozí provoz do internetu. Například když je nějaká aplikace napadená. \n\nZ tohoto důvodu nahradíme Debian na gateway systémem OPNsense. Budeme se tomu věnovat v následujících dnech. S tím se pojí několik věcí:\n\n* Změní se IP adresy odchozího provozu, ale ty budou stále z našich rozsahů **89.185.254.128/27** a **2a01:430:252::0/48** - vždy jsme uváděli celé rozsahy a nedávali konkrétní IP adresy, takže by vaše aplikace měly běžet bez problémů i po této změně.\n* **Příchozí HTTP(S) provoz na aplikace poběží bez přerušení.**\n* Může dojít k několika výpadkům přístupu do internetu a to v následujících dnech po 23:00 - o postupu vás budeme informovat v tomto incidentu.\n\n**Update 24.2.**: 27.2. po 23:00 budeme sjednocovat nastavení sítě na všech našich fyzických serverech. Způsobí to různé výpadky konektivity, které by ale neměly být dlouhé.\n\n**Update 24.2.**: 24.2. po 23:00 budeme testovat nastavení sítě na jednom z fyzických serverů. Malá část služeb může být během této doby nedostupná.\n\n**Update 24.2. 23:18**: Půjdeme otestovat novou konfiguraci sítě na jednom z našich strojů. Může dojít ke krátkým výpadkům u jednotek aplikací, které tam mají databáze, u SSH připojení a SMTP serveru.\n\n**Update 25.2. 0:08**: Otestovali jsme co bylo potřeba. **Další změny přijdou v noci z pátka (28.2.) na sobotu (1.3.), kdy musíme celou síť sjednotit**. Zkusíme se na to připravit, ale je možné, že dojde k delšímu výpadku většího či menšího množství aplikací a stacků. Co potřebujeme vyřešit a nemáme to jak otestovat mimo produkci, je šifrované spojení mezi LB a ostatními stroji. Je možné, že se na tom zasekneme. Uvidíme. Začneme v pátek, resp. v sobotu až po půlnoci.\n\n**Update 25.2.**: I dnes budeme po 23:00 dělat změny na síti. Cílem je zjednodušit konfiguraci na fyzických serverech přesunutím daemona Bird do virtuálních serverů. Je to součást přípravy na pátek. Chceme tím co nejvíc potlačit potenciální problémy s komunikací mezi LB a zbytkem sítě.\n\n**Update 25.2. 23:36**: Začínáme.\n\n**Update 26.2. 1:04**: Máme hotovo. Podle našeho monitoringu k žádnému velkému výpadku nedošlo, ale u některých aplikace vypadly cca 4x testovací requesty za dobu testování. Budeme pokračovat v noci ze čtvrtka na pátek a pak v pátek.\n\n**Update 26.2. 23:30**: Začínáme.\n\n**Update 27.2. 00:52**: Máme hotovo. Došlo k několika malým výpadkům z důvodu špatné routy na jednom ze serverů. Zítra se pokusíme definitivně sjednotit nastavení sítě. Tam se může stát, že bude výpadek delší.\n\n**Update 28.2. 00:25**: Začínáme. Ještě dokončujeme nějaké testy, takže k výpadku interní sítě, a s tím i většiny služeb, dojde kolem 1:00.\n\n**Update 28.2. 01:50**: Aktuálně jsou všechny aplikace a stacky dole kvůli problémům s komunikaci mezi LB a zbytkem infrastruktury. Pracujeme na řešení.\n\n**Update 28.2. 01:58**: Problém s LB by už měl být vyřešený.\n\n**Update 28.2. 02:01**: Neměli jsme tento incident aktivní, takže nebyl vidět na homepage. Napravili jsme to.\n\n**Update 28.2. 03:02**: Pro dnešek máme hotovo. Monitoring nám nehlásí žádný problém, stejně jako naše připravené testy. Mysleli jsme, že to stihneme dnes, ale budeme pokračovat ještě zítra. Dnes jsme narazili na problém ve spojení mezi LB a našimi fyzickými servery, který nám zabral dost času a který jsme odstranili. Také jsme sjednotili nastavení sítě pro samotné fyzické servery, kterým už nedělá problém broadcast provoz, což byl problém, který jsme neúspěšně řešili celý týden. Zbývá nám přepnout všechny virtuální servery pod připravené VLANy a pak přidat novou gateway, kvůli které tento incident původně vzniknul.\n\n**Update 1.3. 01:40**: Začínáme.\n\n**Update 1.3. 02:22**: Jeden ze serverů je hotový. Za chvíli půjdeme na druhý.\n\n**Update 1.3. 3:28**: Máme hotovo. Ještě spouštíme pár testů, ale zdá se, že všechno běží. V příštích dnech budeme měnit gateway, přes kterou jde traffic ven. Přidáme sem víc info až budeme vědět přesně kdy.\n\n","ts":"2026-03-01T02:56:29.150883052Z","severity":"low","updates":[{"id":"2ebc9056-bc0d-4a91-b7cb-23a550a9fc51","incident_id":"f810ac94-6ba1-4b28-bd44-3b445f4e5872","message":"S gateway jsme se zatím dostali do slepé uličky a tento incident zavíráme. Až budeme vědět víc, vytvoříme nový.","ts":"2026-04-11T23:52:55.618Z"}]},{"id":"79eadb70-86c8-4e4b-b264-fd3a69dea36f","title":"Výpadek stacků v adminu","status":"resolved","message":"Administrace aktuálně nemá spojení ke službě pro správu stacků a pokud máte alespoň jeden stack (novější na node-02), tak nefunguje. Problém řešíme.\n\n**Update 11:15**: Problém byl vyřešen","ts":"2026-02-25T10:15:56.987612975Z","severity":"low","updates":[]},{"id":"2b95bcd5-ea0a-449f-ba26-93cd814deab4","title":"Problém se správou aplikací v administraci","status":"resolved","message":"Po nasazení nové verze administrace řešíme problém se správou aplikací. Za chvíli to bude opravené.\n\n**Update 22.2. 23:56**: Opraveno. Zase jedeme.","ts":"2026-02-24T00:14:14.625850699Z","severity":"low","updates":[]},{"id":"093689ca-7c29-44bb-bd2e-afc3525b8cde","title":"Migrace store3, 4 a 5","status":"resolved","message":"**V pátek 20.2. po 23:00**, budeme migrovat databázové servery store3, 4 a 5 na jiný fyzický server. Během toho se změní i IP adresy všech tří databázových serverů. Výpadek se bude týkat cca 50 % aplikací, které u nás hostují a neměl by trvat déle než několik minut.\n\n**Update 21.2. 0:28:** Začínáme.\n\n**Update 21.2. 0:48:** Máme hotovo. Migrace proběhla bez problémů.","ts":"2026-02-20T23:48:59.086131476Z","severity":"low","updates":[]},{"id":"98bb0a7e-0c03-440a-940e-7dcac401af62","title":"Migrace node-24 na jiný server","status":"resolved","message":"Ve pátek **6.2.2026 po 23:00** bude probíhat migrace node-24 na jiný fyzický server. Během toho dojde k výpadku aplikací, které na tomto stroji hostují, na přibližně deset minut. Důvodem je větší aktualizace host serveru, kde tento node běží a musíme ho vzít na pár hodin offline.\n\n**Update 5.2.**: Tahle migrace nám zapadla v historii incidentů, takže ji posunujeme na první místo. Pokud všechno půjde dobře, tak aplikace na node-24 by neměly být vypnuté déle než 10 minut.\n\n**Update 6.2. 23:58**: Začínáme pomalu s migrací. K výpadku aplikací dojde později, cca během hodinky až dvou.\n\n**Update 7.2. 0:50**: Musíme dnešní migraci přerušit, protože nám vypadl monitorovací server v kanceláři a bez monitoringu se do migrace pouštět nechceme. Důvodem je pravděpodobně výpadek proudu. Nové datum oznámíme během víkendu.\n\n**Update 8.2. 0:50**: S migrací budeme pokračovat příští týden **v pátek 13.2. po 23:00**.\n\n**Update 14.2. 0:50**: Začínáme.\n\n**Update 14.2. 1:42**: Dostali jsme se do fáze, kdy budeme vypínat aplikace. Předběžný odhad je, že budeme hotovi během půl hodiny.\n\n**Update 14.2. 2:01**: Zatím jde všechno dobře.\n\n**Update 14.2. 2:33**: 10 aplikací nám nenaběhlo kvůli problémům s Runtime. Zbytek běží. Zkoušíme problém vyřešit.\n\n**Update 14.2. 2:48**: Problém jsme vyřešili a všechny aplikace už běží. Ještě nás čeká nějaké testování, ale incident uzavíráme.","ts":"2026-02-14T01:48:55.439211644Z","severity":"low","updates":[]},{"id":"77261ec6-551e-43ba-b6ec-2a7b5202a274","title":"Úprava konfigurace node-28","status":"resolved","message":"Po aktualizaci Dockeru, minulý týden, jsme objevili ještě jeden problém na node-28 a budeme muset všechny aplikace na něm restartovat. Pustíme se do toho **dnes, 4.2.2026, po 23:00**.\n\n**Update 23:34**: Začínáme.\n\n**Update 00:08**: Vypínáme aplikace.\n\n**Update 00:45**: Nepodařilo se nám přesunout data dockeru a budeme muset znovu stáhnout všechny image. Výpadek se prodlouží. \n\n**Update 1:04**: Aplikace už pomalu nabíhají.\n\n**Update 1:11**: Všechny aplikace už běží. Máme tedy hotovo.","ts":"2026-02-05T00:35:23.826094325Z","severity":"low","updates":[]},{"id":"57546908-faa8-4378-965d-c6098285301e","title":"Aktualizace jednoho z fyzických serverů","status":"resolved","message":"Na jednom ze serverů dnes budeme provádět aktualizaci systému a změnu konfigurace sítě. Na serveru nic neběží, ale je součástí kruhové topologie naší interní sítě, která se na chvíli přeruší. Neočekáváme, že dojde k něčemu horšímu než výpadku pár paketů na interní síti.\n\nZačneme po 23:00.\n\n**Update 23:33**: Začali jsme se změnou na síti a s upgradem. Nemělo by dojít k žádném významnému výpadku a tento incident je tu jen pro informaci.\n\n**Update 23:48**: Změna konfigurace sítě na tomto prázdném serveru ovlivnila vnitřní síť i na dalších třech serverech. Změnu jsme vrátili zpět.\n\n**Update 00:08**: Problém nám nakonec způsobila stará interní síť, kde ještě běží několik služeb. To jsou store3, store4, store5, node-24, administrace, pár dedikovaných databází a SSH proxy. Stroje v této síti mají nastavenou výchozí bránu na server, který jsme restartovali, takže pokud vypadne, vypadne i jejich přístup do nové interní sítě a do internetu (pokud nemají veřejnou adresu).\n\nVšechny ostatní služby, tzn. primárně aplikace mimo node-24 a aplikace, které buď nepoužívají naše sdílené databáze nebo běží na store6, tak fungovaly.\n\nStarou síť postupně nahrazujeme, ale jeden ze serverů na ní ještě má virtuální servery. Na nové síti už máme tyto situace podchycené a přístup do sítě není závislý na fyzickém serveru, který je potřeba občas restartovat nebo se může z jakéhokoli důvodu vypnout.\n\nZkusíme tento problém ještě potlačit, abychom mohli dokončit práce na serveru, na kterém dnes pracujeme.\n\n**Update 0:36**: Problém máme prozatím vyřešený a nebude se opakovat. A úplně zmizí společně se starou sítí. Server už je aktualizovaný a síť je zkonfigurovaná tak jak jsme chtěli. Zbývá doinstalovat několik závislostí a budeme hotovi.","ts":"2026-01-31T22:09:16.094118844Z","severity":"low","updates":[]},{"id":"93a4c9ad-7667-4e49-a586-fffcb33ccc59","title":"Migrace node-23 na jiný server","status":"resolved","message":"**Ve středu 21.1.2026 po 23:00** bude probíhat **migrace node-23 na jiný fyzický server**. Během toho dojde k výpadku aplikací, které na tomto stroji hostují, na přibližně deset minut.\n\n**Update 30.1.:** Migraci node-23 jsme prozatím zrušili, protože po odsunutí jednoho z nodů a po dalších provedených změnách se situace stabilizovala.","ts":"2026-01-30T17:06:33.136353726Z","severity":"low","updates":[]},{"id":"03b26c64-8650-491f-b987-8376a0e3e14f","title":"Náš monitoring hlásí problémy na některých aplikacích","status":"resolved","message":"Zjišťujeme co se děje.\n\n**Update: 21:47**: Na jednu z aplikací šel provoz, co nám saturoval linku mezi load balancerem a našimi servery. Provoz už se uklidnil. Ještě budeme situaci monitorovat.\n\n**Update 22:43**: Incident už se nevrátil, takže ho uzavíráme.","ts":"2026-01-29T22:43:12.413616670Z","severity":"low","updates":[]},{"id":"8fdd1e23-e76e-4287-9f7b-adfff7281f60","title":"Migrace node-28 na jiný server","status":"resolved","message":"**Ve pátek 23.1.2026 po 23:00** bude probíhat **migrace node-28 na jiný fyzický server**. Během toho dojde k výpadku aplikací, které na tomto stroji hostují, na přibližně deset minut.\n\n**24.1. 0:44**: Máme připravený nový node a překopírovaná data. Za chvíli vypneme všechny aplikace, sesynchronizujeme data a spustíme je na novém nodu.\n\n**24.1. 2:36**: Migraci dnes neprovedeme. S každým novým Nodem instalujeme poslední verzi Dockeru a ta je nyní nekompatibilní se službou, která spravuje kontejnery s aplikacemi. Musíme tento problém nejdříve vyřešit a pak se k migraci vrátíme. Pokračovat budeme příští týden, pravděpodobně **28.1. po 23:00**.\n\nVšechny aplikace už zase běží z původního nodu.\n\n**28.1. 23:13**: Za chvíli začneme s migrací. Máme nový systém otestovaný a funguje. Synchronizace dat trvá cca 3 minuty, pak budou nabíhat kontejnery. Během pěti minut by mělo být hotovo.\n\n**28.1. 23:33**: Museli jsme se vrátit zpátky na původní node kvůli problémům runtimes. Pokusíme se o druhý pokus až toto vyřešíme.\n\n\n**29.1. 0:05**: Aktuálně stahujeme runtime a až to bude hotové, tak se pustíme do migrace.\n\n**29.1. 0:41**: Všechny aplikace jsou úspěšně přemigrované.","ts":"2026-01-28T23:41:34.199050342Z","severity":"low","updates":[]},{"id":"3be22142-ba25-4eeb-9b20-0c1ac54986a6","title":"Migrace MariaDB a PostgreSQL databáze store6","status":"resolved","message":"V návaznosti na incident z 15.1.2026 budeme migrovat store6 na jiný fyzický server. **Migrace proběhne 16.1.2026 po 23:00**. O postupu budeme informovat v tomto incidentu.\n\n**23:52**: Pomalu začínáme s migrací. Během příští hodiny by nemělo dojít k výpadku většímu než minutu.\n\n**00:28**: Migrace je hotová.","ts":"2026-01-16T23:30:39.519452971Z","severity":"low","updates":[]},{"id":"6b7b9e32-6d97-48c2-b3e7-53810e2c7235","title":"Řešíme problém na infrastruktuře","status":"resolved","message":"**11:39**: Většina virtuálních serverů na jednom z fyzických serverů přestala reagovat. Restartujeme ho.\n\n**11:48**: Server nabíhá.\n\n**11:52**: Server naběhl. Incident budeme ještě aktualizovat.\n\n**12:58**: Po výpadku nefungovala konektivita aplikací směrem do internetu. Problém jsme opravili.\n\nVýpadek konektivity ven byl způsoben chybou v konfiguraci firewallu, která sice přežila reload pravidel, ale už ne restart serveru.\n\n**13:10**: Opravili jsme problém, kdy se administrace nemohla dostat na node-24. Aktuálně to vypadá, že všechny služby fungují.\n\nZ rychlé analýzy dat z našeho monitoringu začaly první problémy v 11:10, kdy vypadla první aplikace z node-28. V 11:25 přestala reagovat databáze na store6 (jiná databáze na tomto strojí hostována není). V 11:39 jsme server restartovali a po 11:52 začaly všechny služby nabíhat a během několika minut byla dostupná většina aplikací. Do cca 14:00 jsme řešili ještě dílčí problémy, které restart způsobil.\n\nNa tomto serveru jsme v posledních týdnech řešili několik incidentů a ne u 100 % z nich se nám dařilo identifikovat přesnou příčinu. Bohužel to nakonec vyústilo k takto velkému výpadku, který zahrnoval 5 aplikačních nodů, všechny stacky, store6 a gateway do internetu.\n\nIncident už uzavřeme, protože aktuálně všechny služby běží, ale budeme ho ještě aktualizovat.\n","ts":"2026-01-16T14:55:02.633047885Z","severity":"low","updates":[]},{"id":"48548c79-4af6-466e-b273-d265126f189d","title":"Problém na store6","status":"resolved","message":"**9:26**: Máme problém na MariaDB databázi store6. Zatím zjišťujeme co se přesně děje.\n\n**9:34**: Problém už je vyřešený. Zjišťujeme co se vlastně stalo a budeme tento incident aktualizovat.\n\n**9:55**: Inicident zatím uzavíráme, protože už neprobíhá, ale ještě ho budeme aktualizovat o další informace.\n\n**10:34**: Problém vznikl už v 8:05, kdy na serveru začalo stoupat využití paměti ze stabilních 800 GB postupně na 925 GB z celkových 996 GB v 9:22, kdy došlo k výpadku MariaDB databáze na store6 a k citelnému zpomalení všech virtuálních serverů, které na tomto stroji běží. Výpadku předcházela zvýšená aktivita na diskovém poli. Ta začala v 9:17 a způsobilo ji čtení logů službou promtail, která stála i za zvýšeným využitím paměti.\n\nSlužbu promtail jsme vypnuli, takže problém už se opakovat nebude. Zároveň z tohoto konkrétního serveru přestěhujeme některé služby počínaje databází store6 a jednoho až dvou node serverů pro aplikace (aktuálně jich tam běží pět). K těmto migracím vytvoříme vlastní incidenty. Store6 pro jistotu přesuneme již zítra.","ts":"2026-01-15T09:58:15.928605385Z","severity":"low","updates":[]},{"id":"51a81dba-be15-4950-8d94-d4ed9be30eb8","title":"Restart všech aplikací","status":"resolved","message":"V návaznosti na problémy z 5.1.2026 na node-28 budeme tento týden restartovat všechny aplikace podle harmonogramu níže. Dojde během toho ke krátkému výpadku. Stacků se to týkat nebude.\n\n* **node-22** Středa 7.1.2026\n* **node-23** Středa 7.1.2026\n* **node-24** Čtvrtek 8.1.2026\n* **node-25** Čtvrtek 8.1.2026\n* **node-28** Pátek 9.1.2026\n* **node-29** Pátek 9.1.2026\n\n\nZačneme vždy **po 23:00**.\n\n**Update 23:07 7.1.2026:** Node-22 je hotový.\n\n**Update 23:16 7.1.2026:** Node-23 je hotový.\n\n**Update 23:48 8.1.2026:** Začínáme s Node-24 a Node-25.\n\n**Update 00:01 9.1.2026:** Node-24 je hotov.\n\n**Update 00:11 9.1.2026:** Node-25 je hotov.\n\n**Update 23:44 9.1.2026:** Začínáme s Node-28.\n\n**Update 23:58 9.1.2026:** Node-28 je hotov.\n\n**Update 23:59 9.1.2026:** Začínáme s Node-29.\n\n**Update 00:05 10.1.2026:** Node-29 je hotov.","ts":"2026-01-10T01:00:13.501472144Z","severity":"low","updates":[]},{"id":"7ae6b89a-1c16-44b4-8c0d-dd2233099b71","title":"Node-28","status":"resolved","message":"Na node-28 aktuálně řešíme zvýšený load. Zatím nevíme co je příčinou, ale pracujeme na vyřešení.\n\n**Update 16:46**: Problém na node-28 byl způsobený kombinací dvou aplikací, kterým docházela paměť v kombinaci s vypnutým OOM killerem. Problém jsme odstranili a v nočních hodinách tento týden ještě restartujeme aplikace na všech nodech, abychom se ujistili, že OOM killer všude běží.","ts":"2026-01-05T15:48:36.995259497Z","severity":"low","updates":[]},{"id":"8ec2f3b7-f63d-46fb-b8a2-328389cd566b","title":"U některých aplikací došlo k výpadku","status":"resolved","message":"**17:26:** Náš monitoring zaznamenal výpadek některých aplikací. Zjišťujeme co se děje a budeme vás informovat.\n\n**17:38**: Několika minutový výpadek způsobil provoz na jedné z aplikací, který nám přetížil load balancer. Aplikace nebyly dostupné cca mezi 17:26 a 17:30.\n\n**17:42**: Problém se vrátil. Situaci řešíme.\n\n**17:51**: Problém je už pryč. Upravili jsme konfiguraci load balanceru, abychom zabránili jeho přehlcení a budeme situaci sledovat.\n\n**22:07**: Vypadá to, že situace už se uklidnila, takže uzavíráme tento incident.","ts":"2025-12-21T21:07:59.532323748Z","severity":"low","updates":[]},{"id":"d0f261d2-97dd-42cf-b44c-cb3d30b8705d","title":"Výpadek služeb","status":"resolved","message":"**14:14**: Na naší infrastruktuře právě probíhá incident. Řešíme ho a budeme vás informovat.\n\n**Update 14:23**: Problém je vyřešený. Způsobila ho konfigurační chyba na firewallu.\n\n**Update 14:50**: Problém se nám ještě vrátil na node-23. Během chvíle to bude v pořádku.\n\n**Update 15:03**: Problém na node-23 je vyřešený. Museli jsme restartovat všechny kontejnery na nodu.","ts":"2025-12-19T14:05:32.284025915Z","severity":"low","updates":[]},{"id":"3c122ca8-1f28-4b9f-a7d9-37e011c6a158","title":"Problém se Stacky","status":"resolved","message":"**23:21**: Dnes dojde k restartu nodu se stacky, protože kombinace poslední verze Alpine 3.22.2 a Incusu <=6.18 má nekompatibilně nastavený appArmor a nestartují kontejnery. Je možné, že se obejdeme i bez restartu, ale Incus musíme aktualizovat. Tento incident budeme dále aktualizovat.\n\n**Update 23:52**: Bez restartu jsme se nakonec neobešli, ale problém je odstraněný.","ts":"2025-12-11T22:52:42.708759563Z","severity":"low","updates":[]},{"id":"8bafaf82-4f43-42c3-81e1-2e47ddb54798","title":"Výpadek Node-29","status":"resolved","message":"Řešíme problém na node-29.\n\n**Update 16:02:** Systém na node-29 má sice vysoký load, ale aplikace reagují normálně. Problém má jen jedna aplikace, kde pravděpodobně došlo ke zneužití react2shell zranitelnosti. Na řešení pracujeme.\n\n**Update 17:08:** Problém je již vyřešený.","ts":"2025-12-09T16:08:35.243912163Z","severity":"low","updates":[]},{"id":"5aeaba96-9888-4633-9cc2-161e5d6b05b5","title":"Výpadek Cloudflare","status":"resolved","message":"Celosvětový výpadek Cloudflare nám vyřadil registraci do administrace, protože tam používáme službu, která běží právě za Cloudflare.\n\nPokud by to mělo trvat nějak dlouho, tak službu vyřadíme. Více info na status page Cloudflare:\n\nhttps://www.cloudflarestatus.com\n\nVypadla nám i live chat aplikace, tak po dobu výpadku prosím využijte email.\n\n**Update:** Podle našeho monitoringu byl provoz přes Cloudflare obnoven někdy v 15:35.","ts":"2025-11-18T18:22:27.727885675Z","severity":"low","updates":[]},{"id":"47d86c76-1b6b-4319-b7d2-9892b2c6c512","title":"Problém s node-22","status":"resolved","message":"0:25 Máme problém na node-22. Bez zjevné příčiny tam vyletěl load. Snažíme se zjistil co je důvodem. V této chvíli load klesá.\n\n0:37 Restartujeme node-22, protože Docker u některých kontejnerů s aplikacemi vůbec nereaguje.\n\n0:48 Vypadá to, že je problém vyřešený.","ts":"2025-11-04T23:48:12.227346670Z","severity":"low","updates":[]},{"id":"c3df6386-3612-424c-96d2-23b63da88fe3","title":"Změna cesty k logům u LB","status":"resolved","message":"Během upgradu minulý týden jsme špatně nastavili cestu k logům pro Nginx a musíme kvůli tomu Nginx restartovat. Dojde kvůli tomu ke krátkému výpadku řádově v sekundách.\n\n**Update 23:21**: Změna je hotová.","ts":"2025-10-06T21:21:25.860734242Z","severity":"low","updates":[]},{"id":"840621e1-9a6f-46cc-977a-dd3701e8ae38","title":"Upgrade LB","status":"resolved","message":"V noci z pátka na sobotu, 19. a 20. září, budeme aktualizovat náš load balancer. Začneme po 23:00 a dojde kvůli tomu k několika menším výpadkům, protože bude nutné server minimálně dvakrát restartovat.\n\nBohužel nám upgrade nevyšel a musíme ho posunout na pátek 3.10.\n\n**Update 23:17**: Začínáme se připravovat na upgrade.\n\n**Update 23:32**: Za chvilku začneme s celým procesem. Dojde k několika restartům a tedy i výpadkům všech aplikací a stacků.\n\n**Update 0:20**: Upgrade máme u konce, ale nefungují některé aplikace. Na řešení pracujeme.\n\n**Update 0:31**: Problém je se sítí a týká se aplikací na node-25. Stále hledáme příčinu.\n\n**Update 2:03**: Kromě problému se sítí se po upgradu Cloudflare přestal bavit s novou verzí Nginxu. Aktuální stav je takový, že systém je aktualizovaný, ale stále používáme starší Nginx a budeme muset problém s CF zdebugovat a vyřešit. Je možné, že ještě během víkendu dojde v nočních hodinách k restartům Nginxu, protože musíme učesat aktuální stav, takže tento incident zůstane ještě pár dní otevřený. Nepůjde ale už o nic velkého.\n\n**Update 4.10. 12:32**: Našli jsme problém s node-25 a bude potřeba mu překonfigurovat síť. Uděláme to dnes v noci po 23:00. Problém s Nginxem nekompatibilním s Cloudflare ještě řešíme. Ten si vyžádá více testování a chvíli potrvá. Nicméně včerejší quick fix je trochu nedodělaný a budeme kvůli němu potřebovat jednou restartovat Nginx. K tomu ještě oznámíme kdy.\n\n**Update 4.10. 22:11**: Pokud to půjde s node-25 dobře, tak se dnes pustíme i do úprav LB. Nepůjde o nic kritického, pouze o restart Nginxu a výpadek v ideálním případě nepotrvá déle než 10 sekund. Node-25 je ale pro nás pritorita, protože kvůli němu jsme museli udělat výjimku v routování a ta by se nám mohla vymstít. Jde o chybu, která tam byla od migrace node-25 na nový fyzický stroj, ale čistě náhodou se projevila po restartu LB.\n\n**Update 4.10. 23:45**: Jdeme na node-25.\n\n**Update 4.10. 23:50**: Node-25 je opravený. Výpadek byl minimální, řádově v nižších desítkách sekund. Jdeme na LB.\n\n**Update 4.10. 00:24**: Node-25 i LB jsou úspěšně vyřešeny.","ts":"2025-10-04T22:24:29.384121013Z","severity":"low","updates":[]},{"id":"48c03832-b7f6-4597-b7af-8a64abce382a","title":"Migrace dvou fyzických serverů na společnou virtualizační platformu","status":"resolved","message":"V současné době jsou naše čtyři fyzické servery postavené na dvou virtualizačních nástrojích. První dva používají libvirtd a novější dva Incus. Chceme je sjednotit pod Incus, což znamená migraci několika virtuálních serverů/služeb. V první vlně půjde o:\n\n* **Node-22** - **HOTOVO**\n* **Node-23** - **HOTOVO**\n* **Node-25** - **HOTOVO**\n* **Store6** - **HOTOVO**\n\n<br><br>\n\nV druhé vlně to pak jsou servery:\n\n* **Admin**\n* **Node-24**\n* **SMTP**\n* **SSH proxy**\n* **Store3**\n* **Store4**\n* **Store5**\n\n<br><br>\n\nV tomto incidentu budeme trackovat postup. První vlnu bychom rádi stihli během srpna a druhou během září. Budeme postupně migrovat jeden virtuální server po druhém. Proces bude způsobovat krátké výpadky, které se budou objevovat mezi 23:00 a 2:00. Datum, kdy dojde k výpadkům budeme přidávat postupně k jednotlivým virtuálním serverům výše. Začneme s databázovým serverem Store6. \n\n**Update 9.8. 0:30**: Začali jsme s migrací store6. \n\n**Update 9.8. 2:34**: Migrace je hotová.\n\n**Update 15.8. 16:33**: Dnešní migraci node-25 odkládáme na příští týden. Nový node nám nefunguje jak má. Datumy výše jsou aktualizované.\n\n**Update 22.8. 23:35**: Máme všechno připraveno. Za chvíli vypneme všechny aplikace na node-25, uděláme poslední sync a spustíme je na novém node-25.\n\n**Update 22.8. 23:45**: Vypínáme aplikace na starém node-25.\n\n**Update 23.8. 0:02**: Data jsou sesynchronizovaná a aplikace běží.\n\n**Update 23.8. 0:07**: Vypadá to, že vše běží. Výpadek měl 17 minut. Příští týden půjdeme na node-22.\n\n**Update 30.8. 0:43**: Začínáme s migrací node-22. Je tam víc dat, takže synchronizace se starým serverem potrvá déle než minule. Budeme se snažit, aby výpadek netrval déle než půl hodiny.\n\n**Update 30.8. 1:35**: Data máme zkopírovaná, ale nedaří se nám nahodit veřejné síťové rozhraní. Uvidíme zda s tím hneme a kdyby ne, tak to dnes odpískáme.\n\n**Update 30.8. 2:03**: Podařilo se nám vyřešit problém s veřejnou IP adresou. Aplikace už startují a všechno by mělo být brzy v normálu.\n\n**Update 30.8. 2:16**: Node-22 je přemigrovaný a zdá se, že vše funguje.\n\n**Update 6.9. 0:59**: Jdeme na migraci. Během příštích deseti minut vypneme všechny aplikace na node-23 a začneme s kopírováním dat. Výpadek by měl trvat mezi 15 a 30 minutami.\n\n**Update 6.9. 0:59**: Nemáme stažené všechny potřebné Docker image, takže se samotnou migrací začneme až bude stahování hotové.\n\n**Update 6.9. 2:31**: Kopírování dat trvalo déle než jsme mysleli, ale už všechno nabíhá. Výpadek trval cca od 1:53 do 2:32. Ještě provedeme připravené testy a node-23 bude hotový.","ts":"2025-09-06T00:54:15.883163376Z","severity":"low","updates":[]},{"id":"12388835-18af-4e76-9931-d63ab1fb37aa","title":"Výpadek interní sítě","status":"resolved","message":"Máme problém s interní sítí, kvůli kterému se některé aplikace nedokáží připojit na své databáze, včetně naší administrace. Na odstranění pracujeme.\n\nUpdate: Spojení už funguje, ale ještě může na chvíli vypadnout.\n\n**Update 23:53**: Výpadek trval asi 15 minut mezi 23:18 až 23:33. Problém měly všechny aplikace používající store6 nebo některou z dedikovaných databází. Důvodem byl špatně zapojený kabel do jednoho ze serverů.","ts":"2025-08-19T22:06:59.430942886Z","severity":"low","updates":[]},{"id":"a2d54cf7-1a78-46a9-9ac3-3084d6ea8dc6","title":"Problém s administrací","status":"resolved","message":"Došlo k problému u databáze, kterou využívá administrace. Problém řešíme. Zatím nemáme dostatek informací, abychom mohli sdělit více.\n\nUpdate: Problém jsme vyřešili. Po aktualizaci systému nám naběhla druhá instance databáze pro administraci, kterou pravidelně synchronizujeme na záložní server a kolidovaly MAC adresy.","ts":"2025-08-16T11:23:48.314079267Z","severity":"low","updates":[]},{"id":"60882c2a-bf38-424b-9e52-a97df22d53ad","title":"Restart MariaDB na store6","status":"resolved","message":"29.7.2025 v 16:21 jsme museli restartovat MariaDB databázi na Store6 kvůli chybě opravě chyby v konfiguraci. Výpadek trval jen několik sekund.","ts":"2025-07-29T14:22:15.679886640Z","severity":"low","updates":[]},{"id":"2c65eca5-0ede-4474-ae43-b73ea08d8eb4","title":"Upgrade serveru","status":"resolved","message":"Dnes ve 23:00 budeme upgradovat virtualizační nástroje na jednom z fyzických serverů. Neočekáváme problémy nebo nedostupnost služeb. Pokud i tak dojde k problémům, tak ovlivní:\n\n* Node-29\n* Node-28\n* Managované databáze\n* Administraci\n\n----\n\n**Update:** Jsme hotovi. Monitoring žádný problém nezaznamenal.\n","ts":"2025-07-22T21:16:05.399849812Z","severity":"low","updates":[]},{"id":"df513f21-c9cf-48ab-97d3-73f5400eadd8","title":"Výpadek jednoho ze serveru","status":"resolved","message":"Vypadl nám jeden z fyzických serverů. Pracujeme na řešení.\n\n**Update 19:54**: Do serveru se nemůžeme vůbec dostat a nenabíha. Na řešení stále pracujeme.\n\n**Update 21:51**: Server se nám nedaří nahodit. Přesuneme disky do jiného stroje, ale předtím z tohoto stroje musíme přesunout pár virtuálních serverů. Zatím nechceme dávat žádné časové odhady. Výpadek se týká primárně node-29, adminu a několika podpůrných služeb.\n\n**Update 23:08**: Přehodili jsme disky do jiného stroje a server už běží. Většina služeb včetně administrace už funguje.\n\nK výpadku došlo v 18:57:26 a systém jsme nahodili ve 23:08. Postižené služby byly:\n\n* Aplikace na Node-29\n* Všechny stacky\n* Některé klientské managed databáze\n* Databáze k administraci\n\n**Update 22.7.2025**: Server se nám podařilo oživit a probíhá jeho testování. Tohle je poslední update pro tento incident.\n\n","ts":"2025-07-22T00:26:12.096523722Z","severity":"low","updates":[]},{"id":"0afda93f-7ba7-4047-aa55-3b1bf2828972","title":"Servisní zásah na serveru","status":"resolved","message":"V noci ze středy na čtvrtek, mezi 9. a 10. července, proběhne mezi 23:00 a 2:00 servisní zásah na jednom ze serverů. Výpadek by neměl trvat déle než půl hodiny. U jednoho ze serverů potřebujeme vyměnit zdroj a přidat síťovou kartu.\n\nOvlivněné služby:\n\n* SSH přístupy k aplikacím\n* Databáze store 3, store 4 a store 5\n* SMTP server\n* Všechny aplikace z node-24\n* Administrace\n\n**Update 0:11**: Začínáme.\n\n**Update 0:45**: Server už běží.\n\n**Update 1:30**: A máme hotovo. Vypadá to, že vše běží.\n","ts":"2025-07-09T23:31:25.906823679Z","severity":"low","updates":[]},{"id":"54729a06-6b9a-442e-8c14-07ef0aad24fa","title":"Restart node-29","status":"resolved","message":"Řešíme znovu poškozený filesystém na node-29. K poškození dat nedošlo. Nevíme čím je problém způsobený, ale chceme zkusit použít novější jádro a proto dojde k restartu node-29. Na jiných nodech se problém neprojevuje.\n\nUpdate: Všechno proběhlo bez problémů. Uvidíme zda to problém odstraní. V takovém případě bychom aktualizovali i další nody, protože si myslíme, že jsou tyto chyby způsobeny nějakým specifickým zatížením na node-29.","ts":"2025-07-03T22:44:26.204979839Z","severity":"low","updates":[]},{"id":"250c09b8-08bd-458c-a961-cd898ebd4768","title":"Restart fyzických serverů","status":"resolved","message":"V červnu, dle rozpisu níže, proběhne restart všech našich fyzických serverů. Jde o přípravu na stěhování serverů do jiného racku, kde budou mít více místa. Chceme si tím otestovat, že servery, po změnách konfigurace sítě v posledních několika měsících, naběhnou v pořádku. Dojde postupně k výpadku všech služeb. V ideálním případě ne delším jak 10 minut. V obou dnech začneme ve 23:00 a budeme aktualizovat tento incident s aktuálními informacemi.\n\n9.6. Restart prvních dvou fyzických serverů - node-28, node-26, stacky, administrace\n\n11.6. Restart dalších dvou fyzických serverů - zbytek služeb\n\nUpdate 9.6.: Jdeme na restart prvního serveru.\n\nUpdate 9.6. 0:36: První server máme hotový. Tam běží minimum služeb. Teď půjdeme na server, kde běží stacky, aplikace na nodech 28 a 29, méně důležité podpůrné služby a server, který se stará o NAT z interní sítě.\n\nUpdate 9.6. 0:50: Druhý server už naběhl a všechno zatím vypadá v pořádku. Aktuálně na něm nabíhají virtuální servery.\n\nUpdate 9.6. 0:56: Vše naběhlo bez problémů. Ve středu se pustíme do zbylých dvou serverů.\n\nUpdate 11.6. 29:57: Půjdeme na restart prvního ze dvou serverů. Běží na něm node-22, node-23, node-25 a store6.\n\nUpdate 12.6. 00:14: Server naběhl bez problémů. Půjdeme tedy na druhý. Tam běží admin, node-24, SMTP, TCP proxy pro SSH a databáze store3, store4, store5.\n\nUpdate 12.6. 00:38: Druhý server už je také restartovaný a zatím vše vypadá, že funguje.\n\nServery máme připraveny na stěhování do jiného racku. Tento incident už uzavřeme a samotné stěhování pokryjeme v jiném.","ts":"2025-06-11T22:40:15.827674469Z","severity":"low","updates":[]},{"id":"427c3c2c-4a00-49b2-a41f-e947622d335a","title":"Přesun aplikací z node-26 na node-29","status":"resolved","message":"Aplikace na node-26 běží na trochu jiné konfiguraci serveru než jiné nody. Chceme všechny nody sjednotit, takže aplikace z node-26 přesuneme na node-29. U každé z aplikací, které jsou aktuálně na node-26, dojde ke krátkému výpadku řádově v desítkách sekund.\n\nS migrací začneme v neděli **1. června ve 23:00**. \n\n**Update 0:54** Narazili jsme na malý problém s novým nodem. Podařilo se nám ho vyřešit, ale začínáme kvůli tomu o chvíli později.\n\n**Update 1:09** Nakonec jsme se rozhodli přesunout všechny aplikace najednou, což způsobí jejich výpadek na přibližně 10 minut. Za chvíli začneme.\n\n**Update 1:22** Migrace je hotová. Výpadek trval cca 5 minut.","ts":"2025-06-01T23:27:35.520864797Z","severity":"low","updates":[]},{"id":"d4e971da-04c6-4f95-afa9-9d5f6115140e","title":"Poškozený filesystém na node-28","status":"resolved","message":"Na node-28 došlo k poškození filesystému. Nedošlo k poškození samotných dat. Filesystém nebudeme opravovat, ale pro jistotu přesuneme data na nový. Kvůli tomu bude 19.1. mezi půlnocí a 1:00 node-28 nedostupný.\n\nVšechno proběhlo v pořádku a data jsou na novém filesystému.","ts":"2025-05-18T22:43:39.920093266Z","severity":"low","updates":[]},{"id":"aab48db9-993e-40e1-82ad-589e9a460397","title":"Výměna zdroje","status":"resolved","message":"V souvislosti s výpadkem jednoho ze serverů z 13. února řešíme výměnu zdroje. Máme ho od 21. února objednaný a budeme čekat ještě minimálně do 24.dubna, protože dodavatel zdroj skladem nemá a čeká na něj.\n\nS výměnou spojíme ještě stěhování serverů do volnějšího racku, což se neobejde bez výpadku. Detaily ještě upřesníme.\n\nUpdate 18.5.: Zdroje nám dorazily. V nejbližších dnech přidáme více info k výměně.","ts":"2025-05-18T13:33:34.824163336Z","severity":"low","updates":[]},{"id":"16098839-95d9-4fdf-8094-6682dd0e20fe","title":"Aktualizace administrace","status":"resolved","message":"Nasazujeme poslední verzi administrace s novou službou Stacků. Bohužel se to neobejde bez problémů se stabilitou administrace. Pokud narazíte na problémy, tak během pár minut bude všechno v pořádku.\n\nNašli jsme v implementaci stacků chyby, které se nám na vývojovém stroji neprojevily. Nová verze administrace je tedy nasazená, ale stacky jsou nyní schované. Během pátka je dáme do kupy.","ts":"2025-04-24T11:56:40.755051674Z","severity":"low","updates":[]},{"id":"280b8bb5-1501-4acb-8d02-c8e866ae17fc","title":"","status":"resolved","message":"Řešíme výpadek výpadek jednoho z našich serverů.\n\n**13.2.**\n\n**Update:** Vypadl nám jeden z fyzických serverů, kde běží databáze pro administraci a několik dalších služeb. Většina aplikací nebyla postihnuta.\n\n**Update:** Výpadek postihl node-26, kde jsou hostované aplikace vytvořené přibližně tento rok.\n\n**Update:** Poprosili jsme podporu datacentra o kontrolu serveru a mezitím ho zapnuli vzdáleně a vypadá v pořádku. Budeme to ještě řešit a aktualizovat tento incident.\n\nVýpadek trval od 21:37 do 21:57.\n\n**Update:** Problém se vrátil.\n\n**Update:** Server opět běží, tentokrát s vyměněnými napájecími kabely a na jiných zásuvkách v PDU. Pokud to problém nevyřeší, tak přestěhujeme služby na jiný stroj.\n\n**14.2.**\n\n**Update 0:04:** Server opět vypadl. Přesuneme tedy data na jiný.\n\n**Update 0:58:** Přesouváme data. Je možné, že to potrvá několik hodin.\n\n**Update 2:26:** Přesunuli jsme část dat z původního serveru. Vypadá to, že důvodem výpadku napájení je vadný jeden ze zdrojů. Ve spolupráci s podporou datacentra jsme ho vyndali a uvidíme, zda se problém ještě objeví nebo ne.\n\nProzatím tento incident zavíráme, ale budeme ho ještě aktualizovat.\n\n**Update 2:57**: Naše datacentrum v těchto dnech provádí servisní práce na UPSkách. Je možné, že problémy se zdrojem souvisí právě s tímto. Servisní práce mají skončit během čtvrtka a je tak možné, že server ještě během této doby vypadne.\n\n**Update 8:42:** Server od cca půl jedné běží bez problémů, takže problém byl téměř jistě ve zdroji.\n\n**15.2.**\n\n**Update:** Server běží v pořádku a ani servisní zásahy na UPSkách nezpůsobily žádné problémy. Poptali jsme nové zdroje a čekáme na ně.\n\n**21.2.**\n\n**Update:** Dostali jsme nabídku na nový zdroj a během měsíce bychom ho měli mít.\n\n*27.3.* Update: Uzavíráme tento incident a otevíráme nový pouze pro výměnu zdroje.","ts":"2025-03-27T16:43:16.232590651Z","severity":"low","updates":[]},{"id":"37924e7c-781f-44b1-9dba-b9b89a5aeb8d","title":"Výpadek jednoho ze serverů","status":"resolved","message":"Řešíme výpadek výpadek jednoho z našich serverů.\n\n**Update:** Vypadl nám jeden z fyzických serverů, kde běží databáze pro administraci a několik dalších služeb. Většina aplikací nebyla postihnuta.\n\n**Update:** Výpadek postihl node-26, kde jsou hostované aplikace vytvořené přibližně tento rok.\n\n**Update:** Poprosili jsme podporu datacentra o kontrolu serveru a mezitím ho zapnuli vzdáleně a vypadá v pořádku. Budeme to ještě řešit a aktualizovat tento incident.\n\nVýpadek trval od 21:37 do 21:57.\n\n**Update:** Problém se vrátil.\n\n**Update:** Server opět běží, tentokrát s vyměněnými napájecími kabely a na jiných zásuvkách v PDU. Pokud to problém nevyřeší, tak přestěhujeme služby na jiný stroj.\n\n**Update 0:04:** Server opět vypadl. Přesuneme tedy data na jiný.\n\n**Update 0:58:** Přesouváme data. Je možné, že to potrvá několik hodin.\n\n**Update 2:26:** Přesunuli jsme část dat z původního serveru. Vypadá to, že důvodem výpadku napájení je vadný jeden ze zdrojů. Ve spolupráci s podporou datacentra jsme ho vyndali a uvidíme, zda se problém ještě objeví nebo ne.\n\nProzatím tento incident zavíráme, ale budeme ho ještě aktualizovat.\n\n**Update 2:57**: Naše datacentrum v těchto dnech provádí servisní práce na UPSkách. Je možné, že problémy se zdrojem souvisí právě s tímto. Servisní práce mají skončit během čtvrtka a je tak možné, že server ještě během této doby vypadne.\n\n**Update 8:42:** Server od cca půl jedné běží bez problémů, takže problém byl téměř jistě ve zdroji.","ts":"2025-02-13T07:44:53.395469801Z","severity":"low","updates":[]},{"id":"374a6a26-06ad-49ac-81e6-c9466f63b8a2","title":"Restart node-26","status":"resolved","message":"Dnes, v sobotu 4. ledna, po 23:00, budeme restartovat node-26 kvůli opravě zálohování. Dojde ke krátkému výpadku přibližně na 5 minut.\n\nUpdate: Bohužel je problém trochu komplikovanější, než jsme si mysleli. Musíme aplikace přesunout na nový node. Během zítřka doplníme další informace.","ts":"2025-02-12T20:37:08.262883797Z","severity":"low","updates":[]},{"id":"086f056d-656e-449d-bd93-c30aedec56b7","title":"Nedostupnost záloh","status":"resolved","message":"V pátek 3. ledna od 12:00 do 21:00 budou náhodně nedostupné zálohy z administrace. Migrujeme úložiště záloh na nový stroj.\n\nPro dnešek jsme zatím hotovi, ale ještě se k migraci musíme vrátit příští týden.","ts":"2025-01-03T20:03:28.465775976Z","severity":"low","updates":[]},{"id":"f23fa10e-bb30-4861-a5b6-d3ba3e9ff58c","title":"Konfigurace sítě","status":"resolved","message":"Dnes po 23:00 plánujeme změny konfigurace sítě, které mohou vést ke krátkým výpadkům řádově v sekundách. Našim cílem je přidat dynamické routování na náš load balancer aby, když dojde ke ztrátě spojení na jeden z nodů, tak ho nahradilo jiné spojení. Je to reakce na výpadek ze srpna tohoto roku.\n\n**Update pondělí 0:45**: Máme prozatím hotovo, ke krátkým výpadkům došlo kolem půl jedné ráno. Budeme ještě pokračovat v pondělí večer po 23:00.\n\n**Update pondělí 18:00**: Na dnešní večer máme všechno připraveno. Opět dojde k několikasekundovému výpadku. Začneme po 23:00.\n\n**Update úterý 0:09** Máme hotovo.","ts":"2024-10-28T23:10:12.739184794Z","severity":"low","updates":[]},{"id":"c108c498-a735-456f-a69f-b3a2e02dba62","title":"Stěhování serverů do jiného racku","status":"resolved","message":"V návaznosti na výpadek z 9.10. jsme se s naším datacentrem dohodli, že naše servery přestěhujeme do jiného racku, kde je méně zákazníků a kde mohou být všechny 4 servery u sebe. Zároveň označíme kabely, aby se nedaly tak snadno poplést, uděláme běžnou údržbu serverů a také dokončíme instalaci nové privátní sítě, která u jednoho serveru chybí. Se stěhováním bude ještě spojeno stěhování virtuálních serverů, což způsobí výpadky některých služeb. Více detailů doplníme později.","ts":"2024-10-14T08:46:01.358692164Z","severity":"low","updates":[]},{"id":"44082d4b-fd84-4c78-968b-5170842984f4","title":"Výpadek některých služeb","status":"resolved","message":"**13:41** Nereaguje nám jeden z fyzických serverů. Zjišťujeme co se děje.\n\n**13:50** Podle remote managementu serveru byl server vypnutý. Už nabíhá. Příčinu zatím neznáme.\n\n**13:58** Server naběhl, ale řešíme ještě problém se sítí.\n\n**14:05** Všechny uživatelské služby už běží. Ještě pracujeme na problému s administrací.\n\n**14:18** Administrace už také naběhla.\n\nOmlouváme se za způsobené potíže. Podle logu remote managementu došlo ke ztrátě napájení na obou zdrojích. Kontaktovali jsme datacentrum a snad budeme brzy vědět víc. Incident ukončíme, ale budeme ho dát aktualizovat.\n\n**15:38** Máme vyjádření od datacentra. U racku, kde máme servery, se pohyboval jiný zákazník a nedopatřením se mu podařilo odpojit oba napájecí kabely jednoho ze serverů. Ještě to budeme řešit dál a aktualizujeme tento incident hned jak budeme něco vědět.\n\nS datacentrem jsme se domluvili, že se přestěhujeme do jiného racku, s méně zákazníky, a označíme viditelně kabely. Tohle je poslední update tohoto incidentu. Pro stěhování serverů otevřeme jiný.","ts":"2024-10-14T08:35:38.395519210Z","severity":"low","updates":[]},{"id":"e24798e9-06d6-4e52-a174-c78503ddfd99","title":"Změny v konfiguraci sítě","status":"resolved","message":"Dnes po půlnoci plánujeme udělat malou změnu v konfiguraci naší sítě. Může dojít ke krátkému výpadku spojení mezi aplikacemi a databázemi.\n\nHotovo. Výpadek byl minimální a jen pro jednotky aplikací.","ts":"2024-09-18T22:13:26.230347364Z","severity":"low","updates":[]},{"id":"05e12377-2270-4c44-947c-dacefb54de82","title":"Krátký výpadek šifrovaného spojení","status":"resolved","message":"V pátek mezi 23:03 a 23:05 došlo chybou konfigurace ke krátkému výpadku šifrovaného spojení mezi loadbalancerem a aplikačními servery.\n\nV sobotu kolem 1:00 budeme konfiguraci měnit znovu a může dojít ke krátkému výpadku. \n\nMáme hotovo.","ts":"2024-08-30T23:26:57.913358830Z","severity":"low","updates":[]},{"id":"e6b73043-049f-456a-b262-b91742ade7ca","title":"Výpadek","status":"resolved","message":"Některé aplikace na Roští přestaly odpovídat. Problém řešíme.\n\n27.8.2024 10:23 Problém je v šifrovaném spojení mezi LB a aplikačními nody. Snažíme se najít řešení.\n\n27.8.2024 10:28 Obnovili jsme spojení přes druhý server a všechny služby už zase běží. Incident necháme ještě chvíli otevřený.\n\n27.8.2024 11:22 Vypadá to, že problém úplně nezmizel. Řešíme ho s podporou Master DC, kde máme servery.\n\n27.8.2024 12:50 Problém se stále náhodně objevuje. Jsme v kontaktu s podporou Master DC, kde na tom pracují. Zatím nemáme nic potvrzeného. V minulosti byly podobné problémy způsobené DDOS útoky.\n\n27.8.2024 12:54 Z Master DC máme potvrzené, že problém je u nich:\n\n*Bohužel se jedná o problém v OS edge switchů, na opravě pracujeme*\n\n27.8.2024 14:00 Náš monitoring aktuálně nehlásí žádné problémy, ale ještě nemáme vyřešení potvrzené.\n\n27.8.2024 14:21 Z Masteru jsme dostali další informaci. Stále všechno funguje, ale je možné, že tam ještě něco řeší.\n\n*Jedná se s největší pravděpodobností o problém v software switche, který obsluhuje část infrasturktury, kde je umístěn váš server. Emergency reload proběhne od 15:00 CEST.*\n\n27.8.2024 15:28 Master nám potvrdil, že je problém opravený. Různé výpadky téměř všech aplikací probíhaly mezi 10:20 a 14:00. Od té doby náš monitoring hlásí, že je vše stabilní. Po půlnoci ještě musíme vrátit zpátky šifrované spojení na původní server, což způsobí několikasekundový výpadek spojení mezi LB a aplikačními servery a tedy i samotných aplikací. Ještě se k celé věci vyjádříme na blogu až si promluvíme jak s lidmi z Masteru, tak probereme, jestli chceme LB provozovat tímhle způsobem dál.\n\nIncident prozatím uzavíráme.\n\n28.8.2024 00:14 Během příštích pár minut obnovíme konfiguraci šifrovaného spojení mezi LB a některými servery. Dojde k avizovanému krátkému výpadku.\n\n28.8.2024 00:29 Máme hotovo.\n","ts":"2024-08-27T22:31:05.870693804Z","severity":"low","updates":[]},{"id":"e19c9a96-8f97-48f9-b1ed-12b4bfd5dd45","title":"Rekonfigurace šifrovaného spojení mezi nody a LB","status":"resolved","message":"Ve středu 14.8.2024 ve 23:00 budeme rekonfigurovat šifrované spojení mezi nody a load balancerem. Pravděpodobně dojde k několikasekundovému výpadku.\n\nUpdate: Máme hotovo, k výpadku prakticky nedošlo.","ts":"2024-08-14T22:50:44.647842641Z","severity":"low","updates":[]},{"id":"6f3ceb93-0c3e-4653-9cf0-d2923b2926e1","title":"Dočasná nedostupnost záloh","status":"resolved","message":"Dne 2.8.2024, v době mezi 6:00 až 13:00, nebudou z administrace dostupné zálohy a grafy.","ts":"2024-08-02T11:21:01.614986632Z","severity":"low","updates":[]},{"id":"e39a5f0b-76f0-4ae0-92f2-18eb76dc4a32","title":"Restart fyzických serverů","status":"resolved","message":"Během příštích 14 dnů, pravděpodobně v druhém červencovém týdnu, budeme restartovat oba fyzické servery, na kterých v současné době Roští běží. Důvodem je, že přidáváme dva nové servery a potřebujeme v těch původních vyměnit síťové karty, abychom mohli všechny čtyři servery propojit do nové privátní sítě.\n\nNež se do toho pustíme, chceme se ujistit, že virtuální servery node-22, node-23, node-24 a node-25 naběhnou. Tuto sobotu tedy restartujeme node-22 a node-23 a v pondělí bychom pak restartovali node-24 a node-25. Ve středu uděláme to samé s databázemi store3, store4, store5 a store6. Restart provedeme kolem půlnoci a budeme postupně aktualizovat tuto zprávu.\n\nTady je seznam úkonů pro jednodušší orientaci:\n\n* **Sobota 29. června (~ 23:59)** - restart node-22 a node-23 - **přeloženo na čtvrtek**\n* **Pondělí 1. července (~ 23:59)** - restart node-24 a node-25 - **HOTOVO**\n* **Středa 3. července (~ 23:59)** - restart store3, store4, store5 a store6 - **HOTOVO**\n* **Čtvrtek 4. července (~ 23:59)** - restart node-22 a node-23 - **HOTOVO**\n* **V noci z 10. na 11. července** dojde k restartu obou současných fyzických serverů\n\n...\n\nUpdate 1.7.: Sobotní restart node-22 a node-22 nám nevyšel a přesunuli jsme ho na čtvrtek. Restart node-24 a node-25 proběhl bez problémů podle plánu.\n\nUpdate 5.7.: Máme zrestartovány a také zaktualizovány nejdůležitější virtuální servery. Další krok jsou síťové karty příští týden 10. července ve středu.\n\nUpdate 11.7. 3:00: Aktuálně přidáváme síťové karty do původních serverů.\n\nUpdate 11.7. 4:30: Jedna z nových síťových karet nefungovala jak měla a shazovala nám jeden ze serverů. Dnes ji instalovat nebudeme a služby postupně nabíhají.\n\nUpdate 11.7. 5:00: Všechny služby už by měly běžet.\n\nUpdate 11.7. 7:00: Řešíme podivné chování Dockeru na node-24. Na tomto nodu budou teď ještě probíhat pár minut výpadky.\n\nUpdate 11.7. 7:05: Problém jsme vyřešili.","ts":"2024-07-11T05:04:12.391958399Z","severity":"low","updates":[]},{"id":"d9ce7c04-4c58-48f4-b57a-516ed8852628","title":"Změna SSH portu u některých aplikací","status":"resolved","message":"Kvůli chybě v alokaci portů jsme se dostali do situace, kdy si administrace myslí, že některé aplikace používají jiné SSH a HTTP porty, než ve skutečnosti používají. Kvůli tomu mohou aplikace přestat fungovat, pokud u nich dojde k restartu z administrace. Chceme tedy všechny postižené aplikace převést na nový systém a tím problém odstranit. Problém se týká cca 30 % hostovaných aplikací. Během změny **dojde k restartu kontejneru s aplikací** a ke změně SSH portu.\n\nSe změnou začneme v **neděli ve 23:00** a během procesu dojde k restartování aplikací.\n\n**Update:** Postižených aplikací je nakonec ~35 %. Dnes večer uděláme korekci u cca poloviny z nich a zítra, tedy v **pondělí kolem 23:00**, bychom se pustili do druhé půlky. Pokud se něco změní, ta vás budeme informovat zde.\n\n**Update:** Rebuildovali jsme cca polovinu postižených aplikací a zatím vše vypadá v pořádku. Budeme tedy pokračovat v pondělí, opět **kolem 23. hodiny**.\n\n**Update 20.5. 23:00:** Začínáme s další dávkou aplikací. Celý proces by měl být hotový během hodiny. U aplikací dojde ke krátkému výpadku po kterém se změní SSH port.\n\n**Poslední update:** Máme hotovo.","ts":"2024-05-20T21:21:59.303835131Z","severity":"low","updates":[]},{"id":"879acab8-b5c1-4f06-bb42-6968348a176d","title":"Konektivita na našem load balanceru","status":"resolved","message":"Detekujeme problém na našem load balanceru. Zatím nevíme co problém způsobuje a řešíme to.\n\n**Update 15:05:** Podle statistik datacentra, kde máme servery, je důvodem DDOS útok na náš load balancer. Zatím to necháváme na ochraně, kterou k serverům máme, a která útok, i když s malým zpožděním, filtruje.\n\n**Update 15:12:** Vypadá to, že DDOS ochrana nemá ráda VPNku, kterou používáme mezi LB a servery. Řešíme to s podporou datacentra.\n\n**Update 16:32** V datacentru upravili nastavení DDOS ochrany, aby ignorovala všechna naše interní spojení a od 15:39 jsme nedetekovali žádný výpadek.","ts":"2024-05-20T14:34:23.937314015Z","severity":"low","updates":[]},{"id":"9672fc24-e6cd-40cd-94b6-3a4cdc3cced8","title":"Aktualizace backup serveru","status":"resolved","message":"Právě aktualizujeme náš server pro zálohy, kde se nacházejí i data pro monitoring. Grafy v administraci tedy budou chvíli nedostupné.","ts":"2024-04-20T12:57:09.467884162Z","severity":"low","updates":[]},{"id":"65ce5139-8a1b-48a5-ab35-5bbc99267a8f","title":"Vypnutí TLS 1.1","status":"resolved","message":"Zjistili jsme, že náš load balancer podopruje TLS 1.1, protokol, který obsahuje bezpečnostní chyby. Na konci března ho plánujeme vypnout. Pro většinu aplikací to nebude představovat problém, ale pokud je vaše aplikace používaná starými zařízeními, může se stát, že taková zařízení se k serveru nepřipojí.\n\nAktuálně náš LB podporuje TLS 1.1, 1.2 a 1.3 a verze 1.1 na konci března zmizí.","ts":"2024-04-07T23:41:18.946752954Z","severity":"low","updates":[]},{"id":"77c69298-cd0d-4e78-b83b-bf5bd73a8d73","title":"Zvýšený index stability","status":"resolved","message":"Zvýšený index stability v levé části této status stránky nesouvisí s provozem samotných aplikací, ale s připojením našeho monitorovacího serveru do internetu, kde v noci kolem jedné hodiny ranní došlo k několika výpadkům. Všechny naše služby jsou v současné době v pořádku.","ts":"2024-02-28T16:08:33.082026939Z","severity":"low","updates":[]},{"id":"fcb6c101-f67c-4920-b2eb-e4cfbe25cb4b","title":"Výpadek node-22","status":"resolved","message":"Na jednom z fyzických serverů nám došla paměť a odnesl to node-22, který nefungoval v neděli ráno mezi 8:45 a 9:45.\n\nV důsledku tohoto problému budeme dnes večer, tedy v noci z neděle na pondělí, přenášet store6 na jiný server a budeme restartovat node-25.\n\nEditor: Nakonec store6 stěhovat nebudeme a node-25 se nebude restartovat. Problém z rána byl způsoben přidělením moc velké paměti v součtu několika virtuálním serverům, kde celek nevycházel na fyzickou paměť o necelých 1 GB RAM. Store 6 je zatím malý server, takže mu kousek ubereme a problém se již nebude opakovat. Zároveň jsme na fyzické servery přidali zram swap, který zasáhne kdyby mělo dojít na nejhorší a tak i když něco přehlédneme, služby pojedou dál. Máme také ticket na přidání monitoringu, abychom příště věděli, že používáme víc paměti než ve skutečnosti máme.","ts":"2024-02-18T23:44:07.360809803Z","severity":"low","updates":[]},{"id":"78fb2465-2eed-463a-90c8-a8c6965dd380","title":"Problém na load balanceru","status":"resolved","message":"Evidujeme problém na našem load balanceru. Na odstranění pracujeme.\n\nUpdate: Problém byl způsobený synchronizací konfigurace z administrace, kdy došlo k mnoha reloadům nginxu na load balanceru a vyčerpala se tím paměť. Chyba je ale ve skutečnosti na straně služby, která nginx reloaduje. Bohužel se problém neprojevil během vývoje, protože ve vývojovém prostředí nemáme stejné množství aplikací jako na produkci.\n\nDélka výpadku byla kolem čtyř minut.","ts":"2024-02-10T16:44:44.497809673Z","severity":"low","updates":[]},{"id":"7713abda-20f9-4d24-bd22-ec3c8fa4d10d","title":"Upgrade switchů v datacentru","status":"resolved","message":"Z datacentra nám dorazila informace o možné výpadku konektivity 17.1.2024. Naše servery mají duální konektivitu, takže by nemělo dojít k výpadku větším než několik paketů.\n\n\nDATUM A ČAS: 17. 1. 2024, 5:30–6:00\n\nTYP UDÁLOSTI: Plánovaný servisní zásah\n\nPOPIS: Postupný restart a upgrade switchů\n\nDOPAD: Výpadek konektivity po dobu prací, nulové riziko výpadku u duální konektivity","ts":"2024-01-17T13:32:57.625374412Z","severity":"low","updates":[]},{"id":"743e1262-6ff3-4373-9bff-eaf62a91ffb5","title":"Platby kartou","status":"resolved","message":"Nefungují nám platby kartou z administrace - zelené tlačítko \"Zaplatit kartou\" v detailu platby. Na opravě pracujeme. Mezitím můžete použít platbu kartou na stránce se zálohovou fakturou nebo platbu QR kódem či převod na účet. Omlouváme se za komplikace.\n\nUpdate: Problém jsme opravili.","ts":"2023-12-07T09:11:54.507220478Z","severity":"low","updates":[]},{"id":"eae6b95b-fecc-4eb6-af77-9c043ea2ba91","title":"Grafy v administraci 2","status":"resolved","message":"Dnes večer po 19:00 budeme ještě jednou restartovat server, kde sbíráme metriky využívané v administraci pro grafy. Výpadek potrvá přibližně 20 minut.\n\nUpdate: K restartu se nakonec dostaneme dřív a začínáme po 18:00.\n\nUpdate: Grafy už zase běží.","ts":"2023-12-07T08:00:18.064428062Z","severity":"low","updates":[]},{"id":"c38af787-3574-4830-90ea-e8c53374c05e","title":"Grafy v administraci","status":"resolved","message":"Upradujeme diskové pole v našem zálohovacím serveru, na kterém běží i sběr metrik hostovaných aplikací. V administraci tedy přibližně 2 hodiny nepojedou grafy.\n\nUpdate: Máme hotovo.","ts":"2023-12-04T18:32:09.793052196Z","severity":"low","updates":[]},{"id":"40284ac1-a013-4943-a3ac-050de5361e03","title":"Problém v administraci","status":"resolved","message":"V administraci máme problém s komunikací s některými částmi systému. Na vyřešení pracujeme.\n\nUpdate: Chybu jsme opravili.","ts":"2023-11-25T18:05:02.666677287Z","severity":"low","updates":[]},{"id":"f3bc3e27-9cad-4985-97b3-7351a6a3876b","title":"Výpadek node-24","status":"resolved","message":"Na node-24 nám skokově vzrostlo využití paměti a server přestal reagovat. Situaci řešíme.\n\nUpdate: Problém byl odstraněn.\n\nUpdate: Upravili jsme zálohování tak, aby se stejný problém už neopakoval.","ts":"2023-11-25T17:13:48.572428969Z","severity":"low","updates":[]},{"id":"237042a3-8e0c-41bb-b88c-2aecbd102189","title":"Grafy v administraci","status":"resolved","message":"V administraci aktuálně nefungují grafy kvůli aktualizaci serveru, na kterém pro ně ukládáme data. Na opravě pracujeme.\n\nUpdate: Problém byl opravený.","ts":"2023-11-11T16:15:45.127976934Z","severity":"low","updates":[]},{"id":"0743bae1-5733-4a3b-b680-2db422d9a959","title":"Ověřování telefonního čísla při registraci","status":"resolved","message":"Při registraci se u kroku ověřování telefonního čísla občas objeví chyba 500. Na opravě pracujeme.\n\nUpdate: Máme připravený fix, který bude nasazen dnes, 7.11., večer.\n\nUpdate: Problém byl opraven.","ts":"2023-11-07T22:58:56.526057388Z","severity":"low","updates":[]},{"id":"7ab23bb0-166c-4028-9d7a-37c24fb04549","title":"Výpadek FTP","status":"resolved","message":"Během migrace databáze pro naši administraci jsme aktualizovali PostgreSQL z 11 na 15. Náš FTP server se kvůli tomu nemůže k databázi připojit a neprojde tedy žádný pokus o přihlášení. Pracujeme na opravě.\n\nProblém byl odstraněn. Jednalo se o nekompatibilitu PostgreSQL modulu v ProFTPD s novou verzi PostgreSQL.","ts":"2023-10-26T10:51:50.079152867Z","severity":"low","updates":[]},{"id":"0fe911c6-ee14-43a8-b152-97db851579c4","title":"Migrace na nové servery","status":"resolved","message":"Do konce září budeme stěhovat všechny služby na nové servery. Aplikace budou během následujícího měsíce postupně přemigrovány včetně databází. Během migrace dojde ke krátkému výpadku. Ve většině případů se bude jednat o cca 15 sekund. U aplikací, které nabíhají pomaleji, třeba kvůli instalaci závislostí, bude výpadek trochu delší. Záleží také na počtu souborů a adresářů, které pod aplikaci patří. K podobnému výpadku dojde i u databází, který by ale neměl trvat déle než několik sekund. Všechny akce, které způsobí tyto krátké výpadky, budeme provádět mezi 23:00 a 3:00.\n\nMigrace bude postupná, takže nemůžeme spolehlivě říct, kdy se dostanou na řadu konkrétně vaše aplikace. Proces ale máme automatizovaný, takže výpadek služby bude co nejkratší možný. Jak budeme postupovat, tak bude docházet k aktualizacím tohoto incidentu.\n\n**Update 17.9.:** Máme hotový systém na přenášení aplikací z nodu na node. Přenesli jsme prvních pár desítek aplikací a zároveň nově vytvořené aplikace už jsou nasazovány na nových nodech. Výpadek během migrace trvá přibližně 20 sekund a je silně závislý na počtu souborů, které v aplikaci máte. Mohou to tedy být i jednotky minut. S další várkou aplikací budeme pokračovat příští týden. Začneme na 50 aplikacích za den a postupně budeme zrychlovat.\n\n**Update: 19.9.:** Začali jsme s migrací všech aplikací z node-18. Všechny vypnuté už byly přesunuté, nyní začínáme u těch nejmenších a postupujeme k těm největším. Dnes běží první dávka s cca 10 % aplikací na tomto serveru. Pokud všechno bude v pořádku, tak zítra spustíme migraci pro dalších 30 % aplikací. Tento týden by tedy většina aplikací z note-18 měla být na node-22, 23 nebo 24.\n\n**Update: 23.9.:** Node-18 je už téměř celý prázdný, zbývá tam cca 20 aplikací, které budeme migrovat během víkendu. Další na řadě budou aplikace ze serverů node-19 a node-20, na které se vrhneme v příštím týdnu a následovat bude přenesení všech databází.\n\n**Update: 24.9.:** Všechny aplikace z Node-18 jsou přestěhované.\n\n**Update: 26.9.:** Zítra, v noci z 27. na 28. září, přibližně po půlnoci, přestěhujeme store3 na nový server. Neočekáváme komplikace, ale dojde ke krátkému výpadku, než se srovnají DNS záznamy. Očekáváme, že výpadek nepotrvá déle než 5 minut.\n\n**Update: 28.9.:** Store3 máme přenesený, zítra budeme pokračovat se store4, tedy v noci mezi 28. a 29. září. Opět někdy po půlnoci. Store3 měl výpadek cca minutu. U store4 počítáme s podobným časem.\n\n**Update 2: 28.9.:** Bohužel migrace store3 nešla tak úplně jak jsme plánovali a postgresql databáze nebyla až do rána 9:10 dostupná všem aplikacím. Problém je nyní opavený.\n\n**Update: 29.9.:** Dnes, kolem 1:00, jsme zmigrovali store4 bez jediného problému. V noci se tedy pustíme do poslední databáze a to té na store5. Z uživatelského pohledu bude pak už zbývat jen migrace node-19 a node-20 na node-23 a node-24. To bude poslední přesun, který bude mít vliv na dostupnost aplikací. Aplikace a databáze pak už všechny pojedou z nových serverů.\n\n**Update: 30.9.:**  Databáze máme přestěhované. Následující dny se budeme soustředit na migraci node-19 a node-20.\n\n**Update: 1.10.:**  Tento týden začneme se stěhováním node-19 a node-20. Bude to probíhat stejně jako u node-18. Začneme po 23:00 od těch nejmenších po ty největší aplikace. Výpadek každé aplikace bude cca od 20 sekund až nižší jednotky minut. Záleží primárně na počtu souborů uvnitř aplikace.\n\n**Update: 4.10.:**  Všechny aplikace jsou přestěhované. Čeká nás teď stěhování dalších služeb. Z věcí, které přímo souvisí s aplikacemi a jejich dostupností se jedná o SSH proxy, databázi pro náš admin, a SMTP server. Administrace bude mít krátký výpadek v nočních hodinách. SMTP bude bez výpadku, stejně jako SSH proxy. Všechny tři služby bychom rádi stihli tento týden. Admina ještě oznámíme, druhé dvě služby ani nepoznáte, že se stěhují.\n\n**Update: 26.10.:**  Všechny virtuální servery jsme přesunuly na nový hardware. Celý proces šel relativně bez problémů. Podařilo se nám vylepšit Ansible role tak, že máme deployment pro 90 % infrastruktury kompletně automatizovaný a vylepšili nástroj na migraci aplikací mezi nody. Díky němu byly výpadky jednotlivých aplikací úplně minimální. Ale narazili jsme i na problémy .. třeba se SMTP serverem z tohoto týdne, kde teď prakticky nemáme jak jinak ho obnovit než ze snapshotu celého serveru.\n\nDěkujeme vám za trpělivost při migraci. Teď se zase vrátíme k vývoji, protože jsme mezitím pro vás připravili nové API a máme rozdělané i nové funkce pro administraci.","ts":"2023-10-25T22:42:43.256364672Z","severity":"low","updates":[]},{"id":"988ccd1a-d50f-4d6a-9ba7-f6b801788b13","title":"Výpadek SMTP serveru","status":"resolved","message":"Dnes po 23:00 budeme migrovat SMTP server. Bohužel nám nevyšel původní plán nainstalovat všechny potřebné nástroje na nový server s Debianem 12 ani 11. Používáme projekt Haraka, který aktuálně nevypadá, že by byl v aktivním vývoji a závisí například na knihovně node-hires, která byla deprecated už v roce 2019 a ta na aktuálním Debianu už nejde sestavit. Přeneseme tedy celý obraz server a tento problém vyřešíme později. Dojde během toho k cca 10 minutovému výpadku.\n\n\nK migraci jsme se nakonec dostali až po půlnoci kvůli zdržení u jiného serveru. Všechno šlo bez problémů a výpadek trvat přibližně 10 minut.","ts":"2023-10-25T22:34:31.939652309Z","severity":"low","updates":[]},{"id":"c582b8a8-1d2d-4fe3-a8d4-644923c8f469","title":"Výpadek SMTP serveru","status":"resolved","message":"V souvislosti se stěhováním databáze pro administraci nám přestal fungovat SMTP server. Pracujeme na vyřešení.","ts":"2023-10-23T12:38:37.039957528Z","severity":"low","updates":[]},{"id":"d2831e6e-690d-413a-ac7c-a2d9e32d1902","title":"Update MariaDB databáze store5.rosti.cz","status":"resolved","message":"V noci z úterý na středu 20.9.2023 budeme aktualizovat MariaDB databázi na store5 podobně jako v minulých týdnech na store3 a store4. Půjdeme opět z verze 10.4.12 na 10.9.8.\n\n**Update:** Aktualizace proběhla v pořádku.","ts":"2023-09-20T07:51:22.850479645Z","severity":"low","updates":[]},{"id":"9fbabf6e-9765-4319-b1b6-2652a2824ee7","title":"Update MariaDB databáze store4.rosti.cz","status":"resolved","message":"Podobně jako na store3 i na store4 provedeme aktualizaci MariaDB z verze 10.4.12 na 10.9.8. Pokud se objeví problémy na store3 v následujících dnech, tak bychom se do aktualizace pustili příští týden v noci z 27. na 28. srpna, tedy opět z neděle na pondělí.\n\nUPDATE: Původně plánovaný čas nám nakonec nevyšel, takže ho provedeme v noci z 10. na 11. září.\n\nUPDATE: Nakonec upgrade databáze přesouváme na noc z 11. na 12. září, protože jsme se zasekli při migraci adminu na nový Kubernetes cluster.\n\nUPDATE: Upgrade je hotový. Výpadek trval cca 4 minuty.","ts":"2023-09-11T21:57:49.662189444Z","severity":"low","updates":[]},{"id":"dad4cf93-68e6-41da-a4f5-2010f3539a9b","title":"Migrace administrace","status":"resolved","message":"Dnes v noci proběhne migrace administrace na kubernetes cluster na našich nových serverech. Výpadek potrvá maximálně několik minut, než cert-manager vyřeší certifikáty.\n\nUpdate: Máme hotovo. Trvalo to déle než jsme čekali kvůli problémům s cert-managerem.","ts":"2023-09-10T23:35:39.179285068Z","severity":"low","updates":[]},{"id":"e80e312c-5a8e-4295-8b67-6facb877bde7","title":"Vápadek administrace","status":"resolved","message":"Na našem kubernetes clusteru, kde běží administrace, došlo k problému s překladem DNS záznamů, kvůli čemuž nebyla administrace občas dostupná v sobotu mezi 12:00 a 14:00. Problém jsme vyřešili.","ts":"2023-09-09T12:10:30.432418777Z","severity":"low","updates":[]},{"id":"33c5454f-0304-407f-9ad4-7a1b999694e8","title":"Výpadek bakovního API","status":"resolved","message":"V současné době probíhá útok na online bankovnictví několika bank včetně naší Fio banky. V administraci jsme zaznamenali výpadek jejího API při pokusu o párování plateb. Je tedy možné, že dnes bude párování plateb při úhradách na účet probíhat déle než obvykle.\n\nUPDATE: API Fio Banky nám stále nefunguje, což má vliv na párování EUR plateb. Vypadá to, že Fakturoidu se párování nějakým způsobem podařilo udržet, takže CZK platby fungují v pořádku. Řešíme to bankou.","ts":"2023-09-09T12:08:50.864831842Z","severity":"low","updates":[]},{"id":"1da8f6d6-1d9b-42ec-b252-36a1f1b2533c","title":"Update databáze store3.rosti.cz","status":"resolved","message":"V souvislosti s pádem databáze 17. srpna 2023 budeme v noci z neděle na pondělí 20. až 21. srpna aktualizovat MariaDB databázi store3.rosti.cz z verze 10.4.12 na 10.9.8.\n\nUpdate: Aktualizace bude na poslední minor verzi řady 10, tedy 10.11.5.\n\nUpdate: Aktualizace je hotová.","ts":"2023-08-20T23:15:15.573394262Z","severity":"low","updates":[]},{"id":"85de0273-99e6-4491-bdb8-15eac26159d5","title":"Výpadek MariaDB na store3","status":"resolved","message":"Došlo k výpadku databáze store3.rosti.cz. Databáze už běží, ale zjišťujeme ještě co se stalo.\n\nUpdate: Podle logu došlo k problému uvnitř databáze při provádění ALTER TABLE dotazu, který způsobil pád databáze. Bohužel nám nepřišla notifikace, že se s databází něco děje, což prodloužilo reakční dobu a výpadek tak trval přibližně dvě a půl hodiny od 18:20 do 20:50. Notifikace jsme již opravili. Výpadek se týkal přibližně 4.5 % ze všech hostovaných aplikací, převážně těch nejstarších, které na naší službě máme.\n\nProblém budeme zítra ještě analyzovat, ale vzhledem k tomu, že se velmi pravděpodobně jedná o bug v MariaDB, tak databázi zaktualizujeme na nejnovější verzi a budeme ji sledovat.","ts":"2023-08-17T19:39:30.301661735Z","severity":"low","updates":[]},{"id":"0ae54c99-5352-4252-a7a4-a20d2a5e63c8","title":"Aktualizace NS serverů","status":"resolved","message":"NS servery, kde hostujeme DNS zóny vašich domén, běží na starší verzi Debianu. V příštích dnech připravíme servery nové a přemigrujeme na ně obsah těch původních. Během migrace neočekáváme výpadky služby.\n\n**Update: Aktualizaci jsme úspěšně dokončili.**","ts":"2023-08-05T00:09:29.539535514Z","severity":"low","updates":[]},{"id":"7e301861-05d4-4132-94e2-909a57161096","title":"Výpadek databáze store5","status":"resolved","message":"Přibližně v 15:33 došlo k výpadku databáze MariaDB store5.rosti.cz. Způsobilo ho skokové využití paměti databází. **Databáze opět naběhla přibližně v 16:05**. Příčinu ještě zjišťujeme.\n\n \n\n*Update*: Identifikovali jsme dotazy, které pravděpodobně způsobily, že bylo překročeno množství přidělené paměti. Nicméně by k něčemu takovému nemělo dojít, takže **dnes večer upravíme nastavení databáze, při kterém dojde ke krátkému výpadku**.\n\n*Update*: Upravili jsme nastavení databáze, takže by se problém už neměl opakovat.","ts":"2023-07-12T23:27:15.468126674Z","severity":"low","updates":[]}]}