expertenaustausch > comm.* > comm.infosystems.suchmaschinen

Christoph Schneegans (19.10.2019, 23:38)
Hallo allerseits!

Ich habe im DNS gleichlautende A- und AAAA-Records für "schneegans.de."
und "*.schneegans.de.". Das war bislang nie ein Problem, und ich
kanonisiere meine URLs natürlich per 301-Weiterleitung.

Nun stolpere ich jedoch im Google-Index über alberne URLs, die u.a. mit
"https://neg.feststellungskl.schneegans.de" beginnen;
<https://www.google.com/search?q=site:neg.feststellungskl.schneegans.de>
liefert aktuell 43 Treffer. Wie zum Geier kann denn sowas passieren?
Thomas Hochstein (20.10.2019, 18:26)
Christoph Schneegans schrieb:

> Nun stolpere ich jedoch im Google-Index über alberne URLs, die u.a. mit
> "https://neg.feststellungskl.schneegans.de" beginnen;
> <https://www.google.com/search?q=site:neg.feststellungskl.schneegans.de>
> liefert aktuell 43 Treffer. Wie zum Geier kann denn sowas passieren?


Vermutlich gibt es einen Link darauf, und dann werden die Inhalte
unter dieser Domain eben indiziert. Für Google ist das eine ganz
normale Website.

In concreto dürfest Du das Interrob verdanken:
<https://groups.google.com/forum/#!original/de.soc.recht.datennetze/NAvkJWxrr0g/39d7cybtfdYJ>

-thh
Christoph Schneegans (20.10.2019, 22:00)
Thomas Hochstein schrieb:

> In concreto dürfest Du das Interrob verdanken:
> <https://groups.google.com/forum/#!original/de.soc.recht.datennetze/NAvkJWxrr0g/39d7cybtfdYJ>


Ha! An den Thread erinnere ich mich noch gut, allerdings eher wegen
Günther v. Gravenreuths Antwort, nicht Robs.

Google läuft da aber schon ein wenig Amok: Die URL
"http://neg.feststellungskl.schneegans.de" wurde über den größeren Teil
der vergangenen 18 Jahre per 301 auf <http://schneegans.de/>
kanonisiert. Den ersten Zugriff mit diesem Host gab es laut meinen
Logfiles erst kürzlich, nämlich am 2019-09-20. Die von Google
indizierten URLs mit https-Schema (bspw.
"https://neg.feststellungskl.schneegans.de/windows/safer/") haben
außerdem zu keinem Zeitpunkt funktioniert – lange hatte ich gar kein
TLS, und anschließend galten die Zertifikate nur für "schneegans.de"
und "*.schneegans.de". (Let's Encrypt erlaubt nur höchstens eine
Wildcard; "*.*.schneegans.de" ginge also nicht.)

Ich werde wohl einfach abwarten, ob sich das bessert. Was Google
ausgerechnet an "neg.feststellungskl" so interessant findet, weiß ich
nicht. Robs andere Kreationen tauchen in meinen Logs jedenfalls bislang
nicht auf.
Christoph Schneegans (20.10.2019, 23:27)
Christoph "Ingrid" Schneegans schrieb:

> Die von Google indizierten URLs mit https-Schema (bspw.
> "https://neg.feststellungskl.schneegans.de/windows/safer/") haben
> außerdem zu keinem Zeitpunkt funktioniert – lange hatte ich gar kein
> TLS, und anschließend galten die Zertifikate nur für "schneegans.de"
> und "*.schneegans.de".


Ich sehe gerade in Googles "Search Console", daß sich der Googlebot
daran gar nicht zu stören scheint. Die o.g. URL "is on Google" und
"can appear in Google Search results", und nach Klick auf "View crawled
page" wird mir tatsächlich der Quelltext angezeigt, den ich nur auf
<https://schneegans.de/windows/safer/> sehen möchte.

Ich habe nun noch ein paar weitere Weiterleitungsregeln eingebaut;
laut

$ curl --insecure --include
HTTP/2 301
date: Sun, 20 Oct 2019 11:15:16 GMT
location:
server: Kestrel
content-length: 0

erzeugt mein Server auch für die unerwünschte Subdomain nun eine
saubere 301-Weiterleitung, so daß "neg.feststellungskl" hoffentlich
bald Geschichte sein sollte.
Thomas Hochstein (26.10.2019, 17:59)
Christoph Schneegans schrieb:

[...]
> erzeugt mein Server auch für die unerwünschte Subdomain nun eine
> saubere 301-Weiterleitung, so daß "neg.feststellungskl" hoffentlich
> bald Geschichte sein sollte.


Macht ein Wildcard-Eintrag im DNS denn wirklich Sinn? Dessen Ersatz
durch die tatsächlich genutzten Domains wäre ja letztlich die
einfachere Lösung.
Christoph Schneegans (30.10.2019, 03:27)
Thomas Hochstein schrieb:

> Macht ein Wildcard-Eintrag im DNS denn wirklich Sinn? Dessen Ersatz
> durch die tatsächlich genutzten Domains wäre ja letztlich die
> einfachere Lösung.


Der Provider, bei dem meine Domain seit einigen Monaten liegt, hatte
standardmäßig Wildcard-Records angelegt, und ich sah zu dem Zeitpuntk
keine Notwendigkeit, das zu ändern. Die Wildcards /jetzt/ zu löschen,
wäre wahrscheinlich nachteilig; zunächst sollen die ganzen
unerwünschten URLs aus dem Google-Index verschwinden (und zwar per
Weiterleitung, nicht Fehler).
Ähnliche Themen