expertenaustausch > comm.* > comm.internet.misc

Heinz-Mario Frühbeis (29.11.2018, 14:43)
Hallo Leute,

auf meinen Webspace wird u.a. auch diesem CCBot zugegriffen,
"CCBot/2.0 (https://commoncrawl.org/faq/)".

Diese FAQ-Seite ist komplett englisch und, nun ja, erschließt sich mir
nicht ganz.

Weiß hier jemand was denn genau Common Crawl ist, muss man/ich mir jetzt
Sorgen machen?

Mit Dank im voraus und
mit Gruß
Heinz-Mario Frühbeis
Andreas Kohlbach (29.11.2018, 23:36)
On Thu, 29 Nov 2018 13:43:18 +0100, Heinz-Mario Frühbeis wrote:
> auf meinen Webspace wird u.a. auch diesem CCBot zugegriffen,
> "CCBot/2.0 (https://commoncrawl.org/faq/)".
> Diese FAQ-Seite ist komplett englisch und, nun ja, erschließt sich mir
> nicht ganz.


oder andere Online-Übersetzer sind nicht
bekannt?

> Weiß hier jemand was denn genau Common Crawl ist, muss man/ich mir
> jetzt Sorgen machen?


IMO nein. Viele Bots grasen Webseiten ab, so auch Google.

Wenn Du diesem das Abgrasen untersagen, willst, erstelle eine robots.txt
im obersten Verzeichnis, oder füge hinzu, wenn es das bereits gibt:

User-agent: CCBot
Disallow: /

Will man allen außer vielleicht Google dieses verbieten, geht das auch.

Allerdings halten sich nur "gute" Bots an diese Verbote.

Siehe dazu <https://de.wikipedia.org/wiki/Robots_Exclusion_Standard>.

Man kann aber auch diese blockieren. Leider erinnere ich mich nicht mehr
an Einzelheiten an den Artikel, den ich vor Jahr(zehnten) las: ein Skript
liest das eigene Server-Log. Und wenn ein Bot ungezogen ist und das
Verbot nicht respektiert, wird er auch andere Dateien lesen. Das Skript
prüft, ob es dem Bot verboten wurde (liest die robots.txt) und schaut, ob
trotzdem anderen Dateien gelesen wurden. Und setzt automatisch ein
"Firewall-Regel" für diesen.
Heinz-Mario Frühbeis (03.12.2018, 17:16)
Am 29.11.18 um 22:36 schrieb Andreas Kohlbach:
> On Thu, 29 Nov 2018 13:43:18 +0100, Heinz-Mario Frühbeis wrote:
> oder andere Online-Übersetzer sind nicht
> bekannt?


Manches ist so nah und doch so fern... :)

[..]
> prüft, ob es dem Bot verboten wurde (liest die robots.txt) und schaut, ob
> trotzdem anderen Dateien gelesen wurden. Und setzt automatisch ein
> "Firewall-Regel" für diesen.


Ah ja, habe ich jetzt erkennen können; interessant.

Ich bin ja bei DomainFactory und bis dato hat mich das nie so
interessiert, aber wenn man einmal quasi rein geguckt hat...
Es ging mir nämlich darum, was vom Traffic von meiner IP-Adresse aus
ausging...

Mein bester Dank für deine Erläuterung und
mit Gruß
Heinz-Mario Frühbeis
Ähnliche Themen