expertenaustausch > alt.* > alt.folklore.computer

Marco Lorig (19.05.2020, 15:04)
Hallo zusammen,

nachdem ich nun beide NVRAMs getauscht habe macht mir ein CPU Board
einen Strich durch die Rechnung.

Der RAM wird bei der Diagnose noch erkannt, allerdings keine CPUs (?):

3,0>Displaying PROM Versions
3,0>Slot 1 IO Type 4 FCODE 1.8.30 2002/10/25 14:02 iPOST 3.4.30
2002/10/25 3
3,0>Slot 3 CPU/Memory OBP 3.2.30 2002/10/25 14:03 POST 3.9.30
2002/10/25 4
3,0>Slot 5 Memory OBP 3.2.30 2002/10/25 14:03 POST 3.9.30
2002/10/25 4
3,0>Slot 7 CPU/Memory OBP 3.2.30 2002/10/25 14:03 POST 3.9.30
2002/10/25 4

Wenn das Board gesteckt ist, erscheint im POS folgende Meldung:
3,0> ************* Board Alignment Problem, SYNC Timeout

Hat jemand noch ein Board übrig? Ich gehe mal davon aus, dass die CPUs
noch funktionieren.

Oder alternativ eine Idee, wie man das Board wieder zum Leben erweckt?

Gruß Marco
Dennis Grevenstein (19.05.2020, 15:44)
Marco Lorig <mlorig> wrote:
> Oder alternativ eine Idee, wie man das Board wieder zum Leben erweckt?


Sowas offensichtliches bei der Fehlersuche wie Board in anderen slot
stecken hast Du vermutlich schon probiert? Denn wenn es ein Problem
mit den Kontakten ist, könnte das ja auch an der backplane liegen.

gruss,
Dennis
Marco Lorig (19.05.2020, 16:26)
Am 19.05.2020 um 15:44 schrieb Dennis Grevenstein:
> Sowas offensichtliches bei der Fehlersuche wie Board in anderen slot
> stecken hast Du vermutlich schon probiert? Denn wenn es ein Problem
> mit den Kontakten ist, könnte das ja auch an der backplane liegen.


Jup, der Fehler wandert mit. Wenn ich das Board alleine anfahre, bleibt
der POS bei

5,0>Board 5 FireHose Devices Test

hängen.

Die CPUs werden auch nicht warm (im Vergleich zu den anderen Boards).

Gruß Marco
Marco Lorig (29.05.2020, 15:07)
Am 19.05.2020 um 16:26 schrieb Marco Lorig:
> Jup, der Fehler wandert mit. Wenn ich das Board alleine anfahre, bleibt
> der POS bei
> 5,0>Board 5 FireHose Devices Test
> hängen.
> Die CPUs werden auch nicht warm (im Vergleich zu den anderen Boards).


Neustecken der Einzelteile brachte auch keine Veränderung. Dann bleibt
es leider bei einer 4-WAY SMP Maschine.

Gruß Marco
Sebastian Barthel (05.06.2020, 19:28)
Am Fri, 29 May 2020 15:07:57 +0200 schrieb Marco Lorig:

> Am 19.05.2020 um 16:26 schrieb Marco Lorig:
> Neustecken der Einzelteile brachte auch keine Veränderung. Dann bleibt
> es leider bei einer 4-WAY SMP Maschine.


Nachdem Du schreibst, daß die CPUs nicht erkannt werden und v.a. auch
nicht warm werden, sollte man evtl. mal schauen, ob die überhaupt mit
Spannung versogt werden. Nachdem diese Boards am Backplane seitigen Ende
ja jede Menge Voltage-Regulation machen, kann man da evtl. auch was
finden, was einfach mal nur defekt ist. Da das RAM ja läuft kann man sich
vermutlich auf eine "Seite" der Kühltürmchen konzentrieren.
Irgendwie klingt es ja alles bißchen, als sei da eine
Hauptversorgungsleitung ausgefallen - und zwar eine, die fürs RAM nicht
benötigt wird. In einem PC würde man da jetzt streng auf 12V Leitung
tippen - bei SUNs kann das auch anders organisiert sein.
Möglicherweise gibt es da ja sogar einfach wechselbare Teile drauf, die
quasi schon fürs Wechseln vorgesehen sind - so ala Voltage-Regulatory-
Modules (VRM), wobei ich mich zumindest an kleine steckbare Boards da
nicht erinnern kann.
Evtl. einfach mal mit einem Voltmeter die großen oder beschrifteten
Punkte durchmessen.

Manche CPU Module benötigen zudem eine jeweils bestimmte minimale OpenBoot
Version. Die soltle also auf dem Board zu den CPUs passen.

Viele Grüße,
SBn
Michael Bäuerle (06.06.2020, 10:53)
Sebastian Barthel wrote:
> Am Fri, 29 May 2020 15:07:57 +0200 schrieb Marco Lorig:
> Nachdem Du schreibst, daß die CPUs nicht erkannt werden und v.a. auch
> nicht warm werden, sollte man evtl. mal schauen, ob die überhaupt mit
> Spannung versogt werden. Nachdem diese Boards am Backplane seitigen Ende
> ja jede Menge Voltage-Regulation machen, kann man da evtl. auch was
> finden, was einfach mal nur defekt ist. [...]
> Möglicherweise gibt es da ja sogar einfach wechselbare Teile drauf, die
> quasi schon fürs Wechseln vorgesehen sind - so ala Voltage-Regulatory-
> Modules (VRM), wobei ich mich zumindest an kleine steckbare Boards da
> nicht erinnern kann.


Und wenn nicht: Zumindest nach geplatzten Elkos kann man schauen.
Die lassen sich mit vertretbarem Aufwand wechseln.
Hanno Foest (06.06.2020, 12:05)
Am 06.06.20 um 10:53 schrieb Michael Bäuerle:

> Und wenn nicht: Zumindest nach geplatzten Elkos kann man schauen.
> Die lassen sich mit vertretbarem Aufwand wechseln.


Dicke Elkos bei SUN? Kommt das echt vor?

Hanno
Gerrit Heitsch (06.06.2020, 12:28)
On 6/6/20 12:05 PM, Hanno Foest wrote:
> Am 06.06.20 um 10:53 schrieb Michael Bäuerle:
>> Und wenn nicht: Zumindest nach geplatzten Elkos kann man schauen.
>> Die lassen sich mit vertretbarem Aufwand wechseln.

> Dicke Elkos bei SUN? Kommt das echt vor?


Bei den Enterprise-Systemen habe ich noch keine gesehen, da wurde
Markenware wie Rubycon verbaut. In der U5 und U10 Workstation hingegen
kam es vor.

Gerrit
Sebastian Barthel (06.06.2020, 12:54)
Am Sat, 06 Jun 2020 12:28:38 +0200 schrieb Gerrit Heitsch:

> On 6/6/20 12:05 PM, Hanno Foest wrote:
> Bei den Enterprise-Systemen habe ich noch keine gesehen, da wurde
> Markenware wie Rubycon verbaut. In der U5 und U10 Workstation hingegen
> kam es vor.


Auch diese Art Markenware geht kaputt.
Ich habe einen Laptop von Zenith, da war das komplette Gerät nicht mehr
startbar, komplett dunkel, kein Einschaltpeep, nix. Ursache war einzig
ein Elektrolytkondensator von Rubycon, der völlig unauffällig von oben
aussah. Er war aber nach unten, zur Platine hin ausgelaufen, bzw.
geöffnet und dann teilverdunstet. Ausgewechselt. Gerät läuft wieder.
Man sollte sich also auf den Anschein nicht und auf den Begriff
Markenware schon gar nicht blind verlassen.

Ich habe mal nachgesehen: Auf den Enterprise CPU/Memory Board sind im
hinteren Bereich, zwischen den CPU Plätzen und der Rundlüfterriege,
jeweils 2 solcher Miniboard verbaut, die schon sehr nach VRMs aussehen.
Allerdings kann man die tatsächlich nicht ohne Löten wechseln, was ein
wenig seltsam ist. Mein Tip wäre ja jetzt, daß eines - und dann
vermutlich das zur CPU Seite liegende, für die CPUs zuständig ist, das
andere für die RAMs. Evtl. sind auch beide für die CPUs, dann würde man
aber evtl. erwarten dürfen, daß wenigstens eine CPU gefunden wird.
Zumindest sollte man dort mal schauen. Man die potentiell auch komplett
wechseln, evtl. reicht aber auch dort einen Transistor zu tauschen o.ä.
Für Komplettwechsel muß man a.) natürlich einen Ersatz dahaben und b.)
sollte man das vermutlich nicht mit dem Hobbylötkolben machen.
Gerrit Heitsch (06.06.2020, 12:59)
On 6/6/20 12:54 PM, Sebastian Barthel wrote:
> Am Sat, 06 Jun 2020 12:28:38 +0200 schrieb Gerrit Heitsch:
> Auch diese Art Markenware geht kaputt.


Bei SUN aber ziemlich selten. Die Hardware war nicht nur teuer sondern
auch gut.

Gerrit
Michael Bäuerle (06.06.2020, 13:34)
Gerrit Heitsch wrote:
> On 6/6/20 12:54 PM, Sebastian Barthel wrote:
> Bei SUN aber ziemlich selten. Die Hardware war nicht nur teuer sondern
> auch gut.


In Bezug auf Elkos kommt es hauptsächlich auf die Temperatur an.
Wenn es zu warm wird, z.B. wegen ausgefallenem Lüfter, dann hilft
auch die beste Qualität des Elkos nichts und er wird schnell kaputt
gehen.
Gerrit Heitsch (06.06.2020, 13:47)
On 6/6/20 1:34 PM, Michael Bäuerle wrote:
> Gerrit Heitsch wrote:
> In Bezug auf Elkos kommt es hauptsächlich auf die Temperatur an.
> Wenn es zu warm wird, z.B. wegen ausgefallenem Lüfter, dann hilft
> auch die beste Qualität des Elkos nichts und er wird schnell kaputt
> gehen.


Die ganzen SUN-Server und Workstations (bis auf die ganz billigen)
hatten allerdings Temperatur- und Lüfterüberwachung.

Ich hab hier noch eine SB1000 stehen (aber schon länger nicht mehr
gestartet), die hat eine Steuerung, die die Lüfter so regelt, daß die
CPUs immer eine Temperatur von ca. 80 Grad haben (ich habe ein Script
zur Abfrage).

Wenn es zu warm wird schalten die SUNs ab.

Gerrit
Markus Elsken (06.06.2020, 14:12)
Moin!

Am 05.06.20 um 19:28 schrieb Sebastian Barthel:
> Manche CPU Module benötigen zudem eine jeweils bestimmte minimale OpenBoot
> Version. Die soltle also auf dem Board zu den CPUs passen.


Wie meine SS110, wwo die SM71 erst nicht erkannt wurde, weder einzeln
noch im Verbund mit der laufenden SM51. Nach Upgrade liefen dann beide
einträchtig nebeneinander.

mfg Markus
Kay Martinen (06.06.2020, 16:09)
Am 06.06.20 um 13:47 schrieb Gerrit Heitsch:
> On 6/6/20 1:34 PM, Michael Bäuerle wrote:
>> Gerrit Heitsch wrote:


>>> Bei SUN aber ziemlich selten. Die Hardware war nicht nur teuer sondern
>>> auch gut.

>> In Bezug auf Elkos kommt es hauptsächlich auf die Temperatur an.
>> Wenn es zu warm wird, z.B. wegen ausgefallenem Lüfter, dann hilft
>> auch die beste Qualität des Elkos nichts und er wird schnell kaputt
>> gehen.


Ein Altes Super Sockel 7 Board hier mit einem Krater neben der CPU
beweist das. :-) Ist natürlich keine Server-HW.

> Die ganzen SUN-Server und Workstations (bis auf die ganz billigen)
> hatten allerdings Temperatur- und Lüfterüberwachung.


Dürfte der Normalfall sein bei Serverhardware.

> Ich hab hier noch eine SB1000 stehen (aber schon länger nicht mehr
> gestartet), die hat eine Steuerung, die die Lüfter so regelt, daß die
> CPUs immer eine Temperatur von ca. 80 Grad haben (ich habe ein Script
> zur Abfrage).


Warum grade 80 Grad. Laufen deren CPUs nicht bei z.B. 50 Grad oder
heizen die im leerlauf schon so viel?

Ich erinnere mich das eine übliche Temperaturgrenze für Elkos bei 75
Grad liegt... und dann... 115°

> Wenn es zu warm wird schalten die SUNs ab.


Bei meinen Proliants drehen dann wohl erst mal alle Lüfter auf Volle
Pulle (ebenso beim Einschalten kurz) und erst wenn es dann noch nicht
reicht...

Das tun die auch wenn ein Lüfter still steht. Drehzahlen sehe ich da
aber nicht. Nur so was hier:

ipmitool sdr:
UID Light | 0x00 | ok
Int. Health LED | 0x00 | ok
Ext. Health LED | 0x00 | ok
Power Supply 1 | 0x00 | ok
Power Supply 2 | 0x00 | ok
Power Supplies | 0x00 | ok
VRM 1 | 0x00 | ok
VRM 2 | 0x00 | ok
Fan Block 1 | 34.89 percent | ok
Fan Block 2 | 29.79 percent | ok
Fan Block 3 | 37.24 percent | ok
Fan Blocks | 0x00 | ok
Temp 1 | 40 degrees C | ok
Temp 2 | 16 degrees C | ok
Temp 3 | 30 degrees C | ok
Temp 4 | 30 degrees C | ok
Temp 5 | 25 degrees C | ok
Temp 6 | 30 degrees C | ok
Temp 7 | 30 degrees C | ok

hplog -t
ID TYPE LOCATION STATUS CURRENT THRESHOLD
1 Basic Sensor I/O Zone Normal 107F/ 42C 149F/ 65C
2 Basic Sensor Ambient Normal 64F/ 18C 104F/ 40C
3 Basic Sensor Processor Zone Normal 86F/ 30C 203F/ 95C
4 Basic Sensor Processor Zone Normal 86F/ 30C 203F/ 95C
5 Basic Sensor Pwr. Supply Bay Normal 80F/ 27C 140F/ 60C
6 Basic Sensor Processor Zone Normal 86F/ 30C 203F/ 95C
7 Basic Sensor Processor Zone Normal 86F/ 30C 203F/ 95C

hplog -f
ID TYPE LOCATION STATUS REDUNDANT FAN SPEED
1 Var. Speed Pwr. Supply Bay Normal Yes Normal ( 34)
2 Var. Speed Processor Zone Normal Yes Normal ( 29)
3 Var. Speed Processor Zone Normal Yes Normal ( 37)

Kay
Gerrit Heitsch (06.06.2020, 16:43)
On 6/6/20 4:09 PM, Kay Martinen wrote:
> Am 06.06.20 um 13:47 schrieb Gerrit Heitsch:
> Ein Altes Super Sockel 7 Board hier mit einem Krater neben der CPU
> beweist das. :-) Ist natürlich keine Server-HW.
> Dürfte der Normalfall sein bei Serverhardware.
> Warum grade 80 Grad. Laufen deren CPUs nicht bei z.B. 50 Grad oder
> heizen die im leerlauf schon so viel?


Der Lüfter ist dann leiser als wenn er die CPU auf 50 Grad kühlen will,
eine gute Idee wenn das Ding als Workstation läuft. Das gleiche Board
gabs auch in einem Server, da liefen die Lüfter durchgehend auf 100%.
Und ja, der Ultrasparc III ist nicht gerade sparsam. Das CPU-Modul (wie
ein Pentium II) ist ein ziemlicher Klotz. Ich würde so ca. 1 kg
schätzen. Davon sind 2 Stück verbaut.

Die 80 Grad haben jedenfalls nicht geschadet. Die Kist lief von 2001 bis
Mitte 2017 fast durchgehend als Workstation auf der Arbeit und das
komplett problemfrei.

> Ich erinnere mich das eine übliche Temperaturgrenze für Elkos bei 75
> Grad liegt... und dann... 115°


85 und 105.

[..]
> Fan Block 1 | 34.89 percent | ok
> Fan Block 2 | 29.79 percent | ok
> Fan Block 3 | 37.24 percent | ok


Drehzahlen in % reichen auch zum Abschätzen.

Gerrit
Ähnliche Themen