Seltsamer Fehler und Absturz

#1
Guten Morgen,

ich habe einen Ubuntu Server 8.10 seit 3 Monaten laufen und erhalten am Linux Promt (und auch im Syslog) folgende Meldung:

Code:
Nov 24 18:03:43 server kernel: [  533.887953] ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x0 action 0xa frozen
Nov 24 18:03:43 server kernel: [  533.888049] ata1.00: hotplug_status 0x88
Nov 24 18:03:43 server kernel: [  533.888118] ata1.00: cmd ca/00:08:af:49:66/00:00:00:00:00/e1 tag 0 dma 4096 out
Nov 24 18:03:43 server kernel: [  533.888121]          res ff/ff:ff:ff:ff:ff/00:00:00:00:00/ff Emask 0x12 (ATA bus error)
Nov 24 18:03:43 server kernel: [  533.888199] ata1.00: status: { Busy }
Nov 24 18:03:43 server kernel: [  533.888261] ata1.00: error: { ICRC UNC IDNF ABRT }
Nov 24 18:03:43 server kernel: [  533.888349] ata2: exception Emask 0x10 SAct 0x0 SErr 0x0 action 0xa frozen
Nov 24 18:03:43 server kernel: [  533.888416] ata2: hotplug_status 0x22
Nov 24 18:03:43 server kernel: [  533.888493] ata3: exception Emask 0x10 SAct 0x0 SErr 0x0 action 0xa frozen
Nov 24 18:03:43 server kernel: [  533.888560] ata3: hotplug_status 0x11
Nov 24 18:03:43 server kernel: [  533.888638] ata4: exception Emask 0x10 SAct 0x0 SErr 0x0 action 0xa frozen
Nov 24 18:03:43 server kernel: [  533.888706] ata4: hotplug_status 0x44
Nov 24 18:03:44 server kernel: [  534.611637] ata2: soft resetting link
Nov 24 18:03:44 server kernel: [  534.611880] ata1: soft resetting link
Nov 24 18:03:44 server kernel: [  534.611934] ata4: soft resetting link
Nov 24 18:03:44 server kernel: [  534.611944] ata4: SATA link down (SStatus 0 SControl 300)
Nov 24 18:03:44 server kernel: [  534.611962] ata4: EH complete
Nov 24 18:03:44 server kernel: [  534.611972] ata3: soft resetting link
Nov 24 18:03:44 server kernel: [  534.611980] ata3: SATA link down (SStatus 0 SControl 300)
Nov 24 18:03:44 server kernel: [  534.611992] ata3: EH complete
Nov 24 18:03:44 server kernel: [  534.771615] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Nov 24 18:03:44 server kernel: [  534.771794] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Nov 24 18:03:44 server kernel: [  534.878030] ata2.00: configured for UDMA/133
Nov 24 18:03:44 server kernel: [  534.878041] ata2: EH complete
Nov 24 18:03:44 server kernel: [  534.878132] sd 1:0:0:0: [sdb] 625142448 512-byte hardware sectors (320073 MB)
Nov 24 18:03:44 server kernel: [  534.878157] sd 1:0:0:0: [sdb] Write Protect is off
Nov 24 18:03:44 server kernel: [  534.878162] sd 1:0:0:0: [sdb] Mode Sense: 00 3a 00 00
Nov 24 18:03:44 server kernel: [  534.878196] sd 1:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Nov 24 18:03:44 server kernel: [  534.878225] ata1.00: configured for UDMA/133
Nov 24 18:03:44 server kernel: [  534.878237] ata1: EH complete
Nov 24 18:03:44 server pop3d: LOGOUT, user=airwolf@blasmusikforum.at, ip=[::ffff:194.24.158.73], port=[37175], top=0, retr=50987, rcvd=270, sent=52896, time=24
Nov 24 18:03:44 server kernel: [  534.888264] sd 0:0:0:0: [sda] 625142448 512-byte hardware sectors (320073 MB)
Nov 24 18:03:44 server kernel: [  534.896861] sd 0:0:0:0: [sda] Write Protect is off
Nov 24 18:03:44 server kernel: [  534.896877] sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
Nov 24 18:03:44 server kernel: [  534.903075] sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Ein Absturz folgte auch kurz darauf. Achja ich verwende 2 SATA Platten von Seagate und als Controler diesen hier: SATA Controller PROMISE SATA300 TX4, bulk

Was kann ich machen?

Vielen Dank schon im Voraus für eure Hilfe,

lg redi78
 
#4
Hi,

also nach dem "selftest" habe ich folgende Daten erhalten. Was bedeutet das jetzt?

Code:
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      
UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  
Always       -       198950854
  3 Spin_Up_Time            0x0003   097   097   000    Pre-fail  
Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   
Always       -       23
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  
Always       -       0
  7 Seek_Error_Rate         0x000f   071   060   030    Pre-fail  
Always       -       12654021
  9 Power_On_Hours          0x0032   098   098   000    Old_age   
Always       -       2341
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  
Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   
Always       -       23
183 Unknown_Attribute       0x0000   100   100   000    Old_age   
Offline      -       0
184 Unknown_Attribute       0x0032   100   100   099    Old_age   
Always       -       0
187 Unknown_Attribute       0x0032   100   100   000    Old_age   
Always       -       0
188 Unknown_Attribute       0x0032   100   099   000    Old_age   
Always       -       65537
189 Unknown_Attribute       0x003a   100   100   000    Old_age   
Always       -       0
190 Temperature_Celsius     0x0022   067   061   045    Old_age   
Always       -       589234209
194 Temperature_Celsius     0x0022   033   040   000    Old_age   
Always       -       33 (Lifetime Min/Max 0/21)
195 Hardware_ECC_Recovered  0x001a   046   044   000    Old_age   
Always       -       198950854
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   
Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   
Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   
Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   
Offline      -       223445673576802
241 Unknown_Attribute       0x0000   100   253   000    Old_age   
Offline      -       431365610
242 Unknown_Attribute       0x0000   100   253   000    Old_age   
Offline      -       65146692

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  
LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 70%      
2341         -
 

Till

Administrator
#5
Festplatten zeichnan ja intern auf, wenn z.B. ein Fehler beim lesen auftritt und mit smartctl kannst Du diese Werte nachsehen. Wenn ich das richtig interpretiere, dann ist bei diversen Parametern der warning level überschritten, was darauf hindeutet dass sich die Platte wohl bald in die ewigen jagdgründe verabschieden könnte.

Bin da aber kein spezialist, vieleicht gibt es ja ein Forum oder eine ML zu smartctl, wo Dir jemand das genauer erklären kann.
 

Werbung

Top