OpenAI’nin Açıklamasına Göre Telemetri Hizmeti Büyük Bir Kesintiye Neden Oldu
OpenAI, Çarşamba günü şirket tarihinde yaşanan en uzun kesintilerden birinin, yeni devreye alınan bir telemetri hizmetinden kaynaklandığını belirtti. Bu kesinti, ChatGPT, Sora ve geliştiriciye yönelik API hizmetlerinde ciddi aksaklıklara yol açtı.
Şirketin yayımladığı son durum raporunda, kesintinin bir güvenlik olayı veya yeni bir ürün lansmanından değil, Çarşamba günü devreye alınan Kubernetes metriklerini toplayan bir telemetri hizmetinden kaynaklandığı ifade edildi.
OpenAI, herkesten özür diledi
Kubernetes, uygulama paketlerini ve ilgili dosyaları izole ortamlarda yönetmeye yardımcı olan açık kaynaklı bir programdır. Telemetri hizmeti, istemeden kaynak yoğun Kubernetes API işlemlerine neden oldu ve bu da Kubernetes kontrol düzlemini devre dışı bıraktı. Yeni telemetri hizmetinin, OpenAI’nin birçok hizmetinin DNS çözümlemesi için güvendiği Kubernetes işlemlerini etkilediği belirtildi.
OpenAI’nin DNS önbelleklemesi, yayılımın tam kapsamının anlaşılmadan önce devam etmesine neden oldu ve görünürlüğü geciktirdi. OpenAI, sorunu müşteriler etkilenmeden birkaç dakika önce tespit ettiklerini, ancak aşırı yüklenmiş Kubernetes sunucuları nedeniyle hızlı bir şekilde düzeltme yapamadıklarını açıkladı. Şirket, bu olayın birçok sistem ve sürecin aynı anda başarısız olması ve beklenmedik şekillerde etkileşimde bulunmasının bir sonucu olduğunu belirtti.
OpenAI, gelecekte benzer olayların meydana gelmesini önlemek için altyapı değişikliklerinde daha iyi izleme, aşamalı yayılımda iyileştirmeler ve mühendislerinin Kubernetes API sunucularına her koşulda erişimini sağlamak için yeni mekanizmalar dahil olmak üzere çeşitli önlemler alacağını duyurdu. OpenAI, bu kesinti için ChatGPT kullanıcılarından özür diledi ve beklentilerinin altında kaldıklarını da kabul etti.