Liebe Mitadministratoren,
seit ein paar Tagen stehe ich vor dem Problem, dass die DAG verrücktspielt.
Vermeintlich ohne Ankündigung verabschiedet sich der DAG Cluster.
Unsere Konfiguration:
2 CAS-Server mit Windows LNB
2 Datenbankserver in einer DAG
Der Vollständigkeit halber: wir betreiben zwar noch einen weiteren Standort, allerdings haben wir aufgrund der Leitungsperformance gegen die Einbindung des Servers am 2. Standort entschieden. Von daher kann er außer Acht gelassen werden.
Die Netzwerkkonfiguration:
Funktion/ Servername | DNS | IP-Adresse |
NLB (CAS) | MSX | 10.10.10.10/ 24 |
DAG | MSXDAG | 172.17.130.40/ 16 |
CAS-Server 1 | MX1 | 10.10.10.160/ 24 192.168.10.160/ 24 |
CAS-Server 2 | MX2 | 10.10.10.180/ 24 192.168.10.180/ 24 |
DB-Server 1 | MXDB1 | 10.10.10.170/ 24 172.17.130.170/ 16 |
DB-Server 2 | MXDB2 | 10.10.10.190/ 24 172.17.130.190/ 16 |
DC/ Witness-Share für DAG | 172.17.130.123/ 16 |
Alle Server haben 2 Netzwerkkarten.
Die Netzwerkkarten der Datenbankserver 172.17.130.170 und 190 sind über die Clusterkonfiguration MSXDAG mit der IP 172.17.130.40 eingebunden,
die CAS Server über NLB per IP 192.168.10.160 und 180 auf die IP 10.10.10.10.
Die Fehler, die bei der DAG auftreten haben keine zeitliche Regelmäßigkeit. Sie treten zu unterschiedlichen Zeiten auf. Backup konnte ich aufgrund des mangelnden zeitlichen Zusammenhangs ausschließen.
Die Fehler in der Chronologie (exemplarisch):
03:00:31 Microsoft-Windows-FailoverClustering Fehler 1135 auf MXDB1
„Der Clusterknoten "MXDB2" wurde aus der aktiven Failovercluster-Mitgliedschaft entfernt. Möglicherweise wurde der Clusterdienst auf dem Knoten beendet […]“
03:00:32 Microsoft-Windows-FailoverClustering Fehler 1135 auf MXDB2
„Clusterknoten MXDB1 wurde aus der aktiven Failovercluster-Mitgliedschaft entfernt. Möglicherweise wurde der Clusterdienst auf dem Knoten beendet. […]“
03:00:45 Microsoft-Windows-FailoverClustering Fehler 1049 auf MXDB2
„Die Cluster-IP-Adressressource "IPv4 Static Address 1 (Clustergruppe)" kann nicht online geschaltet werden, da eine doppelte IP-Adresse "172.17.130.40" im Netzwerk erkannt wurde. Stellen Sie sicher, dass alle IP-Adressen eindeutig sind.“
03:00:45 Microsoft-Windows-FailoverClustering Fehler 1069 auf MXDB2
„Bei der Clusterressource "IPv4 Static Address 1 (Clustergruppe)" im geclusterten Dienst oder in der geclusterten Anwendung "Clustergruppe" ein Fehler aufgetreten.“
03:01:32 Microsoft-Windows-FailoverClustering Fehler 1564 auf MXDB1
„Die Dateifreigabe-Zeugenressource "File Share Witness (\\witness.domain.lan\MSXDAG.domain.lan)" konnte nicht für die Dateifreigabe "\\witness.domain.lan\MSXDAG.domain.lan" vermitteln. Stellen Sie sicher, dass die Dateifreigabe "\\witness.domain.lan\MSXDAG.domain.lan"
vorhanden ist und dass der Cluster darauf zugreifen kann.“
03:01:32 Microsoft-Windows-FailoverClustering Fehler 1069 auf MXDB1
„Bei der Clusterressource "File Share Witness (\\witness.domain.lan\MSXDAG.domain.lan)" im geclusterten Dienst oder in der geclusterten Anwendung "Clustergruppe" ein Fehler aufgetreten.“
03:01:32 Microsoft-Windows-FailoverClustering Fehler 1177 auf MXDB1
„Der Clusterdienst wird heruntergefahren, da die Quorumverbindung getrennt wurde. Dies kann darauf zurückzuführen sein, dass die Netzwerkverbindung zwischen einigen oder allen Knoten im Cluster unterbrochen wurde oder dass ein Zeugendatenträgerfailover stattgefunden
hat.
Führen Sie den Konfigurationsüberprüfungs-Assistenten aus, um die Netzwerkkonfiguration zu prüfen. Wenn das Problem weiterhin besteht, prüfen Sie, ob Hardware- oder Softwarefehler in Bezug auf den Netzwerkadapter vorliegen. Prüfen Sie auch, ob andere Netzwerkkomponenten
fehlerhaft sind, an die der Knoten angeschlossen ist, z. B. Hubs, Switches oder Brücken.“
Ich habe die komplette Konfiguration geprüft und keinen Punkt gefunden, an dem ich schrauben könnte.
Ich habe auch eine Clusterüberprüfung durchgeführt. Hier beanstandet der Server:
„Die Eigenschaft "HostRecordTTL" für den Netzwerknamen "Name: MSXDAG" wurde auf 300 ( 5 Minuten) festgelegt. Für lokale Cluster ist der vorgeschlagene Wert 1200 (20 Minuten).“
Diese Einstellung habe ich bisher nicht angefasst. Ist das das Problem?
Andere Lösungsansätze? Im Moment ist es eher Stochern im Nebel und ich möchte Ausfallzeiten so gering wie möglich halten.
Ich bin für jede Hilfe dankbar…
Gruß
André
André Hoppenkamps