Logic in Code,
Freedom in Travel.

인생 뭐 있나 사람 사는거 다 똑같지

전체 글

실무 경험/실무 개발 & 협업

IDC 베어메탈 + Docker Swarm 복합 장애 살려내기

이슈팀장님과 같은 버스를 타고 지하철에서 갈라졌는데, 서비스 장애 모니터링 슬랙 채널에서 알림이 쏟아지기 시작했다.핸드폰으로 빠르게 영향 범위(Blast Radius) 를 파악했다. 다행히 장애 도메인은 예상보다 작았다. 웹서버 티어(Tier)와 해당 DB 인스턴스에만 국한되었고, 권위 네임서버(Authoritative DNS)와 기타 부가 서비스들은 정상 응답을 유지하고 있었다. 장애 인지까지 MTTD(Mean Time To Detect) 약 3~5분 모니터링 시스템이 역할을 잘 해줘서 일찍 알았다. 용어Blast Radius (영향 범위): 장애가 실제로 영향을 미치는 시스템의 범위. 좁을수록 복구가 쉽다.MTTD (Mean Time To Detect): 장애가 발생한 시점부터 인지하는 데까지 걸린 ..

2026. 4. 14. 13:56
실무 경험/기술 트렌드 & 리뷰

Linux 7.0, PostgreSQL 의 성능 저하 - 커널 프리엠션 모델 변경 이슈

AWS 엔지니어 Salvatore Dipietro가 Linux 7.0 개발 커널에서 PostgreSQL 처리량이 이전 커널 대비 절반(0.51x)으로 떨어진 다는것을 발견했다.Graviton4 서버(96 vCPU)에서 pgbench 1,024 커넥션으로 벤치마킹? 했더니 아래와 같은 성능 이슈가 나왔다. Linux 6.x: 정상 처리량Linux 7.0: 50,751 TPS (절반 수준)패치 적용 후: 98,565 TPS (복구)해당 이슈는 단순한 버그가 아니라는 점이다. 커널 메인테이너들이 "이건 PostgreSQL이 고쳐야 할 문제"라고 이슈를 남겼다. 트러블슈팅: 어디서 문제가 발생했나커널 프리엠션 모델 단순화bisecting 으로 추적한 결과해보니 범인은 Intel 개발자 Peter Zijlstr..

2026. 4. 13. 17:13
실무 경험/실무 개발 & 협업

[블록체인] - 솔라나 메인넷 노드, RPC 트러블슈팅

솔라나 메인넷 노드 서버를 운영하기 위해서는 하드웨어 스팩이 좋아야 한다.내가 관리하는 솔라나 서버는 Intel Xeon Gold 6442Y (48코어), 256GB RAM이라는 엄청난 스펙을 가지고 있지만 블록체인 노드의 지랄맞은 특성으로 인해 동기화 지연, Docker NAT 라우팅 문제, Nginx 포트 고갈(TIME_WAIT), I/O 최적화 과정까지 이슈가 있었다.트러블슈팅 1. 점점 멀어지는 블록 동기화노드를 설치하고 스냅샷을 다운받고 블록 동기화 진행 과정을 solana catchup 명령어로 모니터링을 하는데 블록이 점점 멀어졌다. 블록이 멀어진다는 것은 입금을 확인하는데 걸리는 시간이 지연되고, 출금도 지연되는 것이다. 즉 노드가 죽은거나 마찬가지였다. 조치 1: --only-known-..

2026. 4. 1. 16:19
일상-사진/메모장 2

ㅁㄴㅇ

비밀번호로 보호된 글입니다.

2026. 3. 30. 16:24
일상-사진/편집툴

[사진툴] - NX Studio 주요 기능 및 필수 단축키 정리 (전용 무료 사진 편집 프로그램)

니콘 카메라 촬영 후 라이트룸을 대체할 만한 전용 무료 보정 프로그램인 'NX Studio'를 설치했다. 나중에 작업할 때 잊어버리지 않도록 핵심 기능과 작업 속도를 높여주는 단축키를 요약해 둔다.공식 홈페이지를 참고해도 충분하긴하다. (https://www.nikc.nikon.com/product/software/NX_Studio))1. NX Studio 개요니콘에서 무료로 제공하는 컴퓨터 전용 사진 및 동영상 편집 프로그램. 예전에 분리되어 있던 'ViewNX-i(열람)'와 'Capture NX-D(현상)'가 하나로 통합되어 작업 흐름이 훨씬 편해졌다고 한다.NX Studio 장점 (Pros)니콘 카메라와의 완벽한 호환성 서드파티 프로그램과 달리 카메라의 'Picture Control', 'Activ..

2026. 3. 9. 16:25
실무 경험/실무 개발 & 협업

[트러블슈팅] - 유지보수가 중단된 클라이언트와의 TLS 핸드셰이크

"우리 서버는 요청이 잘 가는데요, 우리는 문제가 없어요" 라는 말은 조심스러워 해야 하는 말이다.구체적인 원인을 찾는데만 3개월이 걸린 이슈가 있었다.PG사(결제 대행사) 서버가 우리쪽 서버로 "완료" 통지(Webhook)를 보냈는데, 우리 서버에는 아무런 요청도, 로그도 남지 않는 현상이 있었다. PG사는 "너희 서버가 503(Service Unavailable)을 응답하고 있어"라고 주장했고, 나는 "Nginx, Apache 로그를 다 뒤져봐도 요청 온 흔적조차 없다" 고 응답했다. PG사의 웹훅 버그 가능성부터 /etc/hosts 설정을 통해 전혀 다른 IP로 DNS 캐싱이 되어 있는 것은 아닌지 의심했다. 하지만 PG사는 단순히 'curl' 요청 결과만을 근거로 문제가 없다는 답변만 반복할 뿐..

2026. 2. 2. 23:40