KT 클라우드
2026-06-17 · 18일 전
[kt cloud 웨비나] 중단 없는 운영을 위한 클라우드
요약 이번 kt cloud 웨비나에서는 공공·엔터프라이즈 환경의 실제 사례를 기반으로,고가용성(HA) 및 DR 구성 전략, 그리고 Multi-AZ 기반의 안정적인 플랫폼 운영 체계를 공유합니다. 안녕하세요. kt cloud 마케팅커뮤니케이션팀입니다. AI·클라우드 환경에서는 장애 대응보다 ‘중단되지 않는 구조’를 설계하는 역량이 더욱 중요해지고 있습니다. 특히 시스템이 복잡해질수록 장애 대응에 대한 실무진의 부담은 커지고,서비스 중단에 대한 조
AWSDevOpsInfraSRE
신뢰성 향상을 위한 SLO/SLI 도입 3편 - 서비스 적용 사례
시작하며안녕하세요. Service Reliability 팀에서 SRE(site reliability engineer)로 일하고 있는 천기철입니다. SRE 팀은 사용자에게 안정적이고...
MonitoringPerformanceSRE
Agent 로 최적화 하는 EKS 운영: AWS DevOps Agent + K8s Operator로 MTTR 줄이기
Amazon Elastic Kubernetes Service(Amazon EKS) 환경에서 워크로드를 운영하다 보면, Pod의 OOMKilled 종료나 IP 고갈로 인한 생성 실패 등 다양한 장애 상황에 직면하게 됩니다. 이러한 장애가 발생하면 엔지니어는 Pod 로그 수집부터 Kubernetes Events 추적, 노드 시스템 로그 확인까지 반복적이고 시간 소모적인 트러블슈팅 과정을 거쳐야 합니다. 특히 야간이나 주말에는 대응 시간이 길어지고,
AWSDevOpsKubernetesPerformanceSRE
SRE 팀의 반복 작업을 10분의 1로 줄인 SRE 봇 개발기
들어가며: 늘어나는 서비스, 새로운 인프라, 끝없는 문의여러분의 팀은 하루에 몇 번이나 같은 질문에 답하고, 같은 작업을 반복하고 계신가요?LINE Home DevOps 팀은 최근...
DevOpsInfraSRE
신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기
시작하며안녕하세요. SRE(Site Reliability Engineer)로 일하고 있는 어다희입니다. 저희 팀은 Media Platform SRE를 비롯해 글로벌 트래픽 관리 업...
DevOpsMonitoringSRE
운영 비용을 95% 절감한 서버리스 온콜 시스템 구축기
안녕하세요. 고기를 좋아하는 올리브영 SRE 태극기입니다! 올리브영은 기존에 사용하던 외부 솔루션 기반 온콜 시스템의 한계를 해결하기 위해, 2025년 7월 Amazon SES + Amazon Connect…
AWSDevOpsSRE
베스핀글로벌
2025-05-30 · 약 1년 전
[WhaTap] RDS Failover/Reboot 관제 2 – RDS Failover
오늘은 BESPIN GLOBAL SRE실 지봉근님이 작성해주신 '[WhaTap] RDS Failover / Reboot 관제 2 - RDS Failover'에 대해 소개해드리도록 하겠습니다. The post [WhaTap] RDS Failover/Reboot 관제 2 – RDS Failover appeared first on BESPIN Tech Blog.
AWSDatabaseInfraMonitoringSRE
베스핀글로벌
2025-05-29 · 약 1년 전
[WhaTap] RDS Failover / Reboot 관제 1 – Describe RDS
오늘은 BESPIN GLOBAL SRE실 지봉근님이 작성해주신 '[WhaTap] RDS Failover / Reboot 관제 1 - Describe RDS' 에 대해 소개해드리도록 하겠습니다. The post [WhaTap] RDS Failover / Reboot 관제 1 – Describe RDS appeared first on BESPIN Tech Blog.
AWSDatabaseMonitoringSRE
베스핀글로벌
2025-05-28 · 약 1년 전
AWS Athena를 이용하여 ELB 액세스 로그 분석하는 방법
오늘은 BESPIN GLOBAL SRE실 정민아님이 작성해주신 'AWS Athena를 이용하여 ELB 액세스 로그 분석하는 방법' 에 대해 소개해드리도록 하겠습니다. The post AWS Athena를 이용하여 ELB 액세스 로그 분석하는 방법 appeared first on BESPIN Tech Blog.
AWSData AnalysisSRE
베스핀글로벌
2025-05-26 · 약 1년 전
AWS Console Login 시 Lambda를 이용하여 Slack 으로 알람 발생 구성
오늘은 BESPIN GLOBAL SRE실 정민아님이 작성해주신 'AWS Console Login 시 Lambda를 이용하여 Slack 으로 알람 발생 구성' 대해 소개해드리도록 하겠습니다. The post AWS Console Login 시 Lambda를 이용하여 Slack 으로 알람 발생 구성 appeared first on BESPIN Tech Blog.
AWSDevOpsSRESecurity
문의 대응을 효율화하기 위한 RAG 기반 봇 도입하기
시작하며안녕하세요. SR(Service Reliability) 팀에서 SRE(site reliability engineer, 사이트 안정성 엔지니어링) 업무를 맡고 있는 이채승(a...
AI AgentRAGSRE
하이퍼커넥트
2025-05-15 · 약 1년 전
Building Resilient, High Performance ScyllaDB Clusters with Super Disk
안녕하세요, SRE - Database Platform Unit(DBP)의 stewart입니다. Hyperconnect는 전사 NoSQL 데이터베이스로 ScyllaDB를 약 4년 동안 운영하며, ML feature store[2] 등 전사의 매우 다양한 서비스의 고성능 요구사항을 충족해왔습니다. 하지만 최근 장애 모의 훈련에서 cluster rolling update 시 node 복구 시간이 지나치게 길다는 문제를 발견했습니다. 본 글에서는 이
DatabasePerformanceSRE
데브시스터즈
2025-04-03 · 1년 이상 전
데브시스터즈 엔지니어링 데이 - Infra/SRE 돌아보기
‘데브시스터즈 엔지니어링 데이’를 소개합니다.
InfraSRE
올리브영 QA의 AWS Lambda를 통한 On call 도입기
안녕하세요. 올리브영 QA Enginner 멜짱입니다. 올리브영은 인시던트를 어떻게 관리하고 있는가?…
AWSDevOpsSRE
올리브영은 인시던트를 어떻게 관리하고 있는가?
목차 인시던트란? 인시던트 정책을 수립하게 된 배경이 무엇인가요? 인시던트 정책을 수립하기 위해서 무엇을 하였나요? 인시던트 발생 시 어떻게 진행되나요? 인시던트 처리 후에는 어떻게 하고 있나요? 인시던트란? 인시던트(Incident…
DevOpsMonitoringSRE
사진으로 둘러보는 AWS re:Invent 2023 후기
안녕하세요. AdTech(Advertising technology) 스타트업 매드업에서 데이터 엔지니어 겸 사이트 신뢰성 엔지니어(SRE, Site Reliability Engineer)로 근무하고 있는 백재연입니다. 이번 글에서는 올해 라스베가스에서 열린 AWS re:Invent를 다녀온 후기를 다루려고 합니다. 키노트나 세션 등 기술과 관련된 콘텐츠는 유튜브와 AWS 공식 블로그에 잘 정리가 되어 있으니 생략하고, 처음 이 행사에 참석했던
AWSData EngineeringSRE
카카오스타일
2022-10-13 · 3년 이상 전
EKS클러스터 Karpenter 적용기
안녕하세요! 카카오스타일 SRE팀 네사입니다. 오늘은 카카오스타일 SRE팀에서 올해 EKS 클러스터 이전을 하며 새롭게 도입 했던 AWS Karpenter 에 대해 공유를 해보려 합니다.
AWSKubernetesSRE
44BITS
2021-04-16 · 약 5년 전
[뉴스] 비바리퍼블리카, 개발자 컨퍼런스 Slash 21 사전 예약중
토스 서비스의 개발사 비바리퍼블리카에서는 개발자 컨퍼런스 Slash 21 컨퍼런스 사이트를 오픈하고, 사전 예약 신청을 받고 있습니다. 이번 컨퍼런스는 4월 28일부터 30일까지 3일 동안 열리며, SRE, 모니터링, 테스트, 프론트엔드, 자바스크립트(JavaScript), 데이터베이스, 슬랙봇 등을 주제로 3일간 총 19개 세션이 예정되어있습니다.
FrontendJavaScriptMonitoringSRETesting