Silent Data Corruption Is Real
Source
Evernote/Inbox/Silent Data Corruption Is Real The Changelog.md
Summary
저자는 ZFS 파일 시스템이 하드웨어가 감지하지 못한 ‘침묵형 데이터 손상(Silent Data Corruption)‘을 체크섬 오류로 탐지하고 복구하는 사례를 공유합니다. 주간에 정기적으로 발생하던 오류는 디스크 교체 후에도 지속되었으며, 결국 SAS/SATA 브레이크아웃 케이블의 방향성 오류(Reverse vs Forward)가 원인으로 밝혀져 해결되었습니다. 이 사례는 ZFS와 같은 체크섬 기반 파일 시스템이 물리적/연결성 결함으로 인한 데이터 무결성 손실을 방지하는 데 필수적임을 강조합니다.
Key Points
- ZFS 및 btrfs는 데이터 및 메타데이터 블록마다 체크섬을 기록하여 읽기 시 무결성을 검증하며, 이는 하드웨어가 감지하지 못하는 침묵형 데이터 손상을 방지합니다.
- 저자의 시스템에서 ZFS 스러브(scrub) 작업 중 특정 디스크에서 반복적으로 체크섬 오류가 발생했으나, 디스크 교체 후에도 동일하게 재현되었습니다.
- RAM 오류는 ECC 메모리 사용으로 배제되었으며, SATA 프로토콜의 CRC32 존재로 케이블/메인보드 문제 가능성을 높게 추정했습니다.
- 결국 사용하던 SAS/SATA 브레이크아웃 케이블이 ‘Reverse’ 타입이었고, 올바른 ‘Forward’ 타입으로 교체한 후 문제가 해결되었습니다.
- ZFS를 사용하지 않았다면 수 MB의 데이터가 손상되었을 것을 확인하고, 데이터 무결성 보호를 위해 ZFS 사용을 강력히 권장합니다.