이제 Gremlin은 일반적인 안정성 문제를 자동으로 찾을 수 있습니다.
카오스 엔지니어링 도구로 가장 잘 알려진 신뢰성 테스트 스타트업인 Gremlin은 오늘 탐지된 위험 기능의 출시를 발표했습니다. 이를 통해 Gremlin은 이제 Kubernetes 기반 서비스의 잘못된 구성이나 잘못된 기본값과 같은 우선순위가 높은 안정성 문제를 자동으로 식별한 다음, 발생하는 위험의 심각도에 따라 분류할 수 있습니다. 이 서비스는 잠재적인 수정 사항도 제안합니다.
Gremlin의 CTO이자 창립자인 Kolton Andrus는 “신뢰성의 중요성은 계속해서 커지고 있습니다.”라고 말했습니다. “우리의 디지털 인프라는 물리적 인프라만큼 중요합니다. 정부, 의료, 교통, 통신 및 금융 모두가 이 디지털 기반에 의존하고 있으며 위험이 따릅니다. 다행히도 이러한 위험 중 상당수는 알려진 경우 쉽게 완화할 수 있습니다. 이것이 바로 우리가 새로운 감지된 위험을 발표하게 된 것을 기쁘게 생각하는 이유입니다. 우리는 고객 시스템 내의 심각한 문제, 즉 시스템 상태를 질적으로 개선하기 위해 완화할 수 있는 위험을 신속하게 파악하기 위해 열심히 노력해 왔습니다.”
이미지 크레딧:그렘린
Gremlin의 카오스 엔지니어링 도구는 회사의 인프라를 한계까지 밀어붙일 수 있는 비정상적인 상황을 찾는 반면, Detected Risks는 사전 구성된 테스트 세트를 사용하며 올해 말에 20가지가 더 추가될 예정입니다. 이러한 테스트는 회사의 인프라가 실제로 얼마나 안정적이고 탄력적인지에 영향을 미칠 수 있는 일반적인 문제를 확인합니다. 감지된 위험은 카오스 엔지니어링 실험이나 신뢰성 테스트를 실행하지 않고도 작동합니다.
대체로 이러한 테스트는 매우 간단하며 중복성을 보장하기 위해 배포가 여러 가용성 영역에서 실행되도록 구성하는 것과 같은 모범 사례를 캡슐화합니다. 이는 상식처럼 보일 수 있지만 고객이 실행하는 수천 개의 배포를 살펴보면서 Gremlin은 26%에 중복성이 없고 배포의 80%에 2개의 중복성이 없다는 사실을 발견했습니다. 예를 들어, 이 회사는 시스템이 자동 크기 조정에 영향을 미칠 수 있는 일반적인 Kubernetes 구성 오류도 찾습니다.
“우리 업계에는 이러한 문제를 개인적으로 완화하기 위해 열심히 노력하는 뛰어난 SRE가 많이 있지만 이러한 접근 방식은 확장되지 않습니다.”라고 Andrus는 말했습니다. “우리는 수천 개의 실제 애플리케이션에 걸쳐 귀중한 통찰력을 제공하는 사용하기 쉬운 솔루션을 구축하여 이 문제를 해결하고 있습니다. 기존 위험에 대한 가시성을 엔지니어링 리더십에 제공하면 이 중요한 작업의 우선순위를 지정하고 달성하는 데 도움이 되므로 지속적으로 고객 경험을 보호하고 고품질 소프트웨어를 구축할 수 있습니다.”
이미지 크레딧: