Surveiller l'usure des SSD #51

Closed
opened 2025-03-11 22:26:08 +00:00 by baptiste · 2 comments
Owner

La plupart de nos SSD sont des modèles grand public et commencent à s'user à force d'écriture (par Garage, prometheus, postgresql...)

On peut voir l'état avec smartctl -a /dev/sda (ou /dev/nvme0n1 pour un NVMe)

Exemple avec un NVMe sur df-ymf :

Model Number:                       Samsung SSD 980 500GB
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    28%
Data Units Read:                    54,238,405 [27.7 TB]
Data Units Written:                 228,903,640 [117 TB]

Ce modèle est garanti pour une endurance de 300 TBW, et on est déjà à 117 TB soit 39%. Le champ "Percentage Used" donne une estimation légèrement différente avec 28% d'usure (ça commence à 0%, et on a des problèmes quand on s'approche de 100%)

Le cas le plus critique est ananas mais c'est plus dur à interpréter :

Model Family:     Crucial/Micron Client SSDs
Device Model:     CT500MX500SSD1
User Capacity:    500,107,862,016 bytes [500 GB]

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
202 Percent_Lifetime_Remain 0x0030   014   014   001    Old_age   Offline      -       86
246 Total_LBAs_Written      0x0032   100   100   000    Old_age   Always       -       211792365770

Ce modèle est donné pour une endurance de seulement 180 TBW. Les données SMART donnent une usure à 86%. Le dernier champ donne le nombre de secteurs écrits, en calculant 211792365770 * 512 / 1e12 on obtient 108 TBW.

La plupart de nos SSD sont des modèles grand public et commencent à s'user à force d'écriture (par Garage, prometheus, postgresql...) On peut voir l'état avec `smartctl -a /dev/sda` (ou /dev/nvme0n1 pour un NVMe) Exemple avec un NVMe sur df-ymf : ``` Model Number: Samsung SSD 980 500GB Available Spare: 100% Available Spare Threshold: 10% Percentage Used: 28% Data Units Read: 54,238,405 [27.7 TB] Data Units Written: 228,903,640 [117 TB] ``` Ce modèle est garanti pour une endurance de 300 TBW, et on est déjà à 117 TB soit 39%. Le champ "Percentage Used" donne une estimation légèrement différente avec 28% d'usure (ça commence à 0%, et on a des problèmes quand on s'approche de 100%) Le cas le plus critique est ananas mais c'est plus dur à interpréter : ``` Model Family: Crucial/Micron Client SSDs Device Model: CT500MX500SSD1 User Capacity: 500,107,862,016 bytes [500 GB] ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 202 Percent_Lifetime_Remain 0x0030 014 014 001 Old_age Offline - 86 246 Total_LBAs_Written 0x0032 100 100 000 Old_age Always - 211792365770 ``` Ce modèle est donné pour une endurance de seulement 180 TBW. Les données SMART donnent une usure à 86%. Le dernier champ donne le nombre de secteurs écrits, en calculant `211792365770 * 512 / 1e12` on obtient 108 TBW.
Author
Owner

Données SMART complètes du SSD d'ananas :

=== START OF INFORMATION SECTION ===
Model Family:     Crucial/Micron Client SSDs
Device Model:     CT500MX500SSD1
Serial Number:    
LU WWN Device Id: 5 00a075 1e6b3cec6
Firmware Version: M3CR045
User Capacity:    500,107,862,016 bytes [500 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available
Device is:        In smartctl database 7.3/5387
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Mar 12 22:01:39 2025 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM level is:     254 (maximum performance)
Rd look-ahead is: Enabled
Write cache is:   Enabled
DSN feature is:   Unavailable
ATA Security is:  Disabled, frozen [SEC2]
Wt Cache Reorder: Unknown

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   100   100   000    -    0
  5 Reallocate_NAND_Blk_Cnt -O--CK   100   100   010    -    0
  9 Power_On_Hours          -O--CK   100   100   000    -    15305
 12 Power_Cycle_Count       -O--CK   100   100   000    -    13
171 Program_Fail_Count      -O--CK   100   100   000    -    0
172 Erase_Fail_Count        -O--CK   100   100   000    -    0
173 Ave_Block-Erase_Count   -O--CK   014   014   000    -    868
174 Unexpect_Power_Loss_Ct  -O--CK   100   100   000    -    2
180 Unused_Reserve_NAND_Blk PO--CK   000   000   000    -    62
183 SATA_Interfac_Downshift -O--CK   100   100   000    -    0
184 Error_Correction_Count  -O--CK   100   100   000    -    0
187 Reported_Uncorrect      -O--CK   100   100   000    -    0
194 Temperature_Celsius     -O---K   074   056   000    -    26 (Min/Max 0/44)
196 Reallocated_Event_Count -O--CK   100   100   000    -    0
197 Current_Pending_ECC_Cnt -O--CK   100   100   000    -    0
198 Offline_Uncorrectable   ----CK   100   100   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   100   100   000    -    0
202 Percent_Lifetime_Remain ----CK   014   014   001    -    86
206 Write_Error_Rate        -OSR--   100   100   000    -    0
210 Success_RAIN_Recov_Cnt  -O--CK   100   100   000    -    0
246 Total_LBAs_Written      -O--CK   100   100   000    -    213181507074
247 Host_Program_Page_Count -O--CK   100   100   000    -    2331918540
248 FTL_Program_Page_Count  -O--CK   100   100   000    -    1601768308
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning
Données SMART complètes du SSD d'ananas : ``` === START OF INFORMATION SECTION === Model Family: Crucial/Micron Client SSDs Device Model: CT500MX500SSD1 Serial Number: LU WWN Device Id: 5 00a075 1e6b3cec6 Firmware Version: M3CR045 User Capacity: 500,107,862,016 bytes [500 GB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: Solid State Device Form Factor: 2.5 inches TRIM Command: Available Device is: In smartctl database 7.3/5387 ATA Version is: ACS-3 T13/2161-D revision 5 SATA Version is: SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Wed Mar 12 22:01:39 2025 CET SMART support is: Available - device has SMART capability. SMART support is: Enabled AAM feature is: Unavailable APM level is: 254 (maximum performance) Rd look-ahead is: Enabled Write cache is: Enabled DSN feature is: Unavailable ATA Security is: Disabled, frozen [SEC2] Wt Cache Reorder: Unknown === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate POSR-K 100 100 000 - 0 5 Reallocate_NAND_Blk_Cnt -O--CK 100 100 010 - 0 9 Power_On_Hours -O--CK 100 100 000 - 15305 12 Power_Cycle_Count -O--CK 100 100 000 - 13 171 Program_Fail_Count -O--CK 100 100 000 - 0 172 Erase_Fail_Count -O--CK 100 100 000 - 0 173 Ave_Block-Erase_Count -O--CK 014 014 000 - 868 174 Unexpect_Power_Loss_Ct -O--CK 100 100 000 - 2 180 Unused_Reserve_NAND_Blk PO--CK 000 000 000 - 62 183 SATA_Interfac_Downshift -O--CK 100 100 000 - 0 184 Error_Correction_Count -O--CK 100 100 000 - 0 187 Reported_Uncorrect -O--CK 100 100 000 - 0 194 Temperature_Celsius -O---K 074 056 000 - 26 (Min/Max 0/44) 196 Reallocated_Event_Count -O--CK 100 100 000 - 0 197 Current_Pending_ECC_Cnt -O--CK 100 100 000 - 0 198 Offline_Uncorrectable ----CK 100 100 000 - 0 199 UDMA_CRC_Error_Count -O--CK 100 100 000 - 0 202 Percent_Lifetime_Remain ----CK 014 014 001 - 86 206 Write_Error_Rate -OSR-- 100 100 000 - 0 210 Success_RAIN_Recov_Cnt -O--CK 100 100 000 - 0 246 Total_LBAs_Written -O--CK 100 100 000 - 213181507074 247 Host_Program_Page_Count -O--CK 100 100 000 - 2331918540 248 FTL_Program_Page_Count -O--CK 100 100 000 - 1601768308 ||||||_ K auto-keep |||||__ C event count ||||___ R error rate |||____ S speed/performance ||_____ O updated online |______ P prefailure warning ```
Author
Owner

On a maintenant un exporter smartctl et un dashboard : https://grafana.deuxfleurs.fr/d/fehf0r0vje874c/smart-disk-health-dashboard

On a maintenant un exporter smartctl et un dashboard : https://grafana.deuxfleurs.fr/d/fehf0r0vje874c/smart-disk-health-dashboard
Sign in to join this conversation.
No labels
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference: Deuxfleurs/nixcfg#51
No description provided.