Seltsamer Fehler und Absturz

Dieses Thema im Forum "Server Administration" wurde erstellt von redi78, 25. Nov. 2009.

  1. redi78

    redi78 Member

    Guten Morgen,

    ich habe einen Ubuntu Server 8.10 seit 3 Monaten laufen und erhalten am Linux Promt (und auch im Syslog) folgende Meldung:

    Code:
    Nov 24 18:03:43 server kernel: [  533.887953] ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x0 action 0xa frozen
    Nov 24 18:03:43 server kernel: [  533.888049] ata1.00: hotplug_status 0x88
    Nov 24 18:03:43 server kernel: [  533.888118] ata1.00: cmd ca/00:08:af:49:66/00:00:00:00:00/e1 tag 0 dma 4096 out
    Nov 24 18:03:43 server kernel: [  533.888121]          res ff/ff:ff:ff:ff:ff/00:00:00:00:00/ff Emask 0x12 (ATA bus error)
    Nov 24 18:03:43 server kernel: [  533.888199] ata1.00: status: { Busy }
    Nov 24 18:03:43 server kernel: [  533.888261] ata1.00: error: { ICRC UNC IDNF ABRT }
    Nov 24 18:03:43 server kernel: [  533.888349] ata2: exception Emask 0x10 SAct 0x0 SErr 0x0 action 0xa frozen
    Nov 24 18:03:43 server kernel: [  533.888416] ata2: hotplug_status 0x22
    Nov 24 18:03:43 server kernel: [  533.888493] ata3: exception Emask 0x10 SAct 0x0 SErr 0x0 action 0xa frozen
    Nov 24 18:03:43 server kernel: [  533.888560] ata3: hotplug_status 0x11
    Nov 24 18:03:43 server kernel: [  533.888638] ata4: exception Emask 0x10 SAct 0x0 SErr 0x0 action 0xa frozen
    Nov 24 18:03:43 server kernel: [  533.888706] ata4: hotplug_status 0x44
    Nov 24 18:03:44 server kernel: [  534.611637] ata2: soft resetting link
    Nov 24 18:03:44 server kernel: [  534.611880] ata1: soft resetting link
    Nov 24 18:03:44 server kernel: [  534.611934] ata4: soft resetting link
    Nov 24 18:03:44 server kernel: [  534.611944] ata4: SATA link down (SStatus 0 SControl 300)
    Nov 24 18:03:44 server kernel: [  534.611962] ata4: EH complete
    Nov 24 18:03:44 server kernel: [  534.611972] ata3: soft resetting link
    Nov 24 18:03:44 server kernel: [  534.611980] ata3: SATA link down (SStatus 0 SControl 300)
    Nov 24 18:03:44 server kernel: [  534.611992] ata3: EH complete
    Nov 24 18:03:44 server kernel: [  534.771615] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
    Nov 24 18:03:44 server kernel: [  534.771794] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
    Nov 24 18:03:44 server kernel: [  534.878030] ata2.00: configured for UDMA/133
    Nov 24 18:03:44 server kernel: [  534.878041] ata2: EH complete
    Nov 24 18:03:44 server kernel: [  534.878132] sd 1:0:0:0: [sdb] 625142448 512-byte hardware sectors (320073 MB)
    Nov 24 18:03:44 server kernel: [  534.878157] sd 1:0:0:0: [sdb] Write Protect is off
    Nov 24 18:03:44 server kernel: [  534.878162] sd 1:0:0:0: [sdb] Mode Sense: 00 3a 00 00
    Nov 24 18:03:44 server kernel: [  534.878196] sd 1:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
    Nov 24 18:03:44 server kernel: [  534.878225] ata1.00: configured for UDMA/133
    Nov 24 18:03:44 server kernel: [  534.878237] ata1: EH complete
    Nov 24 18:03:44 server pop3d: LOGOUT, user=airwolf@blasmusikforum.at, ip=[::ffff:194.24.158.73], port=[37175], top=0, retr=50987, rcvd=270, sent=52896, time=24
    Nov 24 18:03:44 server kernel: [  534.888264] sd 0:0:0:0: [sda] 625142448 512-byte hardware sectors (320073 MB)
    Nov 24 18:03:44 server kernel: [  534.896861] sd 0:0:0:0: [sda] Write Protect is off
    Nov 24 18:03:44 server kernel: [  534.896877] sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
    Nov 24 18:03:44 server kernel: [  534.903075] sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
    Ein Absturz folgte auch kurz darauf. Achja ich verwende 2 SATA Platten von Seagate und als Controler diesen hier: SATA Controller PROMISE SATA300 TX4, bulk

    Was kann ich machen?

    Vielen Dank schon im Voraus für eure Hilfe,

    lg redi78
     
  2. Till

    Till Administrator

  3. redi78

    redi78 Member

    OUTPUT:

    === START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED

    Heisst das das die Platte OK ist?
     
  4. redi78

    redi78 Member

    Hi,

    also nach dem "selftest" habe ich folgende Daten erhalten. Was bedeutet das jetzt?

    Code:
    === START OF READ SMART DATA SECTION ===
    SMART Attributes Data Structure revision number: 10
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      
    UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  
    Always       -       198950854
      3 Spin_Up_Time            0x0003   097   097   000    Pre-fail  
    Always       -       0
      4 Start_Stop_Count        0x0032   100   100   020    Old_age   
    Always       -       23
      5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  
    Always       -       0
      7 Seek_Error_Rate         0x000f   071   060   030    Pre-fail  
    Always       -       12654021
      9 Power_On_Hours          0x0032   098   098   000    Old_age   
    Always       -       2341
     10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  
    Always       -       0
     12 Power_Cycle_Count       0x0032   100   100   020    Old_age   
    Always       -       23
    183 Unknown_Attribute       0x0000   100   100   000    Old_age   
    Offline      -       0
    184 Unknown_Attribute       0x0032   100   100   099    Old_age   
    Always       -       0
    187 Unknown_Attribute       0x0032   100   100   000    Old_age   
    Always       -       0
    188 Unknown_Attribute       0x0032   100   099   000    Old_age   
    Always       -       65537
    189 Unknown_Attribute       0x003a   100   100   000    Old_age   
    Always       -       0
    190 Temperature_Celsius     0x0022   067   061   045    Old_age   
    Always       -       589234209
    194 Temperature_Celsius     0x0022   033   040   000    Old_age   
    Always       -       33 (Lifetime Min/Max 0/21)
    195 Hardware_ECC_Recovered  0x001a   046   044   000    Old_age   
    Always       -       198950854
    197 Current_Pending_Sector  0x0012   100   100   000    Old_age   
    Always       -       0
    198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   
    Offline      -       0
    199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   
    Always       -       0
    240 Head_Flying_Hours       0x0000   100   253   000    Old_age   
    Offline      -       223445673576802
    241 Unknown_Attribute       0x0000   100   253   000    Old_age   
    Offline      -       431365610
    242 Unknown_Attribute       0x0000   100   253   000    Old_age   
    Offline      -       65146692
    
    SMART Self-test log structure revision number 1
    Num  Test_Description    Status                  Remaining  
    LifeTime(hours)  LBA_of_first_error
    # 1  Extended offline    Self-test routine in progress 70%      
    2341         -
     
  5. Till

    Till Administrator

    Festplatten zeichnan ja intern auf, wenn z.B. ein Fehler beim lesen auftritt und mit smartctl kannst Du diese Werte nachsehen. Wenn ich das richtig interpretiere, dann ist bei diversen Parametern der warning level überschritten, was darauf hindeutet dass sich die Platte wohl bald in die ewigen jagdgründe verabschieden könnte.

    Bin da aber kein spezialist, vieleicht gibt es ja ein Forum oder eine ML zu smartctl, wo Dir jemand das genauer erklären kann.
     
  6. pee

    pee New Member

Diese Seite empfehlen