Diagnostica della memoria – breve introduzione
Gli errori fisici di memoria non capitano spesso, ma quando si verificano sono fatali. A volte non causano solo il crash del sistema operativo, ma possono causare anche il danneggiamento del disco rigido. Nel peggiore dei casi, il risultato e un database distrutto. Questo solo perché una delle miliardi di celle di memoria ha confuso uno zero con un uno. Le memorie ECC (Error Correcting Code) aumentano la tolleranza dell’errore, ma sono costose e sono costose anche le schede madri che le supportano. E, naturalmente, le ECC non garantiscono che non si verifichino guasti alle RAM.
Esistono strumenti diagnostici delle memorie per Windows. Tuttavia, testare le RAM mentre è stato caricato un intero sistema operativo non ha molto senso perché, in questo modo, troppe celle di memoria non possono essere analizzate. Pertanto, è importante utilizzare un apposito strumento di diagnostica per la memoria che permetta l’avvio da CD o chiavetta USB.
Naturalmente è possibile utilizzare anche lo strumento di diagnosi della memoria fornito con il BIOS. È in genere possibile scegliere tra un test di memoria rapido e uno approfondito. Tuttavia, anche se il BIOS conferma che la vostra memoria è OK, questo non garantisce che tutte le celle di memoria funzionino correttamente.
Purtroppo gli strumenti di diagnostica di memoria del BIOS solitamente non possono trovare problemi di memoria intermittenti, cioè quei problemi che si verificano solo in condizioni specifiche, ad esempio quando due celle di memoria adiacenti si influenzano reciprocamente. Inoltre, in particolare vecchi moduli di memoria, a volte danno errori solo a determinate temperature. Frequenti cambiamenti di temperatura rendono il silicio fragile, causando micro fratture sul chip. Queste micro fratture producono spesso problemi solo a temperature molto specifiche a causa dell’espansione irregolare del chip alle diverse temperature.
Quindi, mi raccomando di avviare lo strumento di diagnostica della memoria quando la macchina è ancora fredda ed eseguirlo per almeno 20 minuti circa fino a quando il computer ha raggiunto la temperatura di esercizio. Purtroppo, anche così non si può essere sicuri che tutte le celle di memoria funzionino correttamente al 100%. Dal momento che gli strumenti di diagnostica della memoria utilizzano diversi algoritmi per sondare le celle, potrebbero essere rilevate dati diversi.
Il modo ideale per la diagnosi di una cella di memoria è quello di scrivere un certo valore (1 o 0) in una cella di memoria, poi scrivere il valore opposto in tutte le celle adiacenti e controllare la cellula originale per vedere se ha ancora il giusto valore. Questo metodo garantisce che la scrittura di una cella di memoria non influisca sulle celle adiacenti, che è spesso la causa di errori intermittenti.
Il problema è che chip progettati in modo diverso rendono difficile determinare le celle di memoria adiacenti. Gli strumenti di diagnostica della memoria operano con le strategie che approssimano questo metodo di test. Di solito riempiono la memoria con determinati modelli, verificano che il modello sia stato scritto correttamente e poi fanno lo stesso con il pattern complementare. Questo non garantisce ancora che un chip di memoria sia impeccabile, ma la probabilità aumenta considerevolmente.
Se lo strumento di diagnostica della memoria rileva un errore, a volte potrebbe non essere chiaro quale modulo di memoria contiene le celle corrotte. In questo caso, il modo migliore per trovare il modulo difettoso è testare tutti i moduli in modo indipendente, inserendoli uno per uno nel computer. Se questo non è possibile, ad esempio perché il chipset richiede un numero pari di moduli, è possibile ruotare i moduli e vedere se lo strumento di diagnostica di memoria segnala l’errore ad indirizzi diversi. Un’altra opzione è di sostituire un singolo modulo e quindi verificare se l’errore si ripete.
Se siete incerti sul corretto funzionamento di un modulo di memoria, di solito l’opzione migliore è la sostituzione. Certamente dipende dall’importanza della macchina corrispondente, ma nella maggior parte dei casi lo schianto di un server produttivo è più costoso rispetto all’acquisto di un nuovo modulo RAM. In ogni caso, consigliamo di testare la memoria delle vecchie macchine ogni tanto,per esempio se è necessario riavviare comunque il server.
ecco due programmi gratuiti per testare le memorie:
Memtest86: http://www.memtest86.com/
Memtest86+: http://www.memtest.org/

