this post was submitted on 19 Feb 2024
17 points (100.0% liked)

de_EDV

3805 readers
1 users here now

Ableger von r/de_EDV auf Lemmy.

News, Diskussionen und Hilfestellung zu Hard- und Software

Diese Community dient als Anlaufstelle für alle IT-Interessierten, egal ob Profi oder blutiger Anfänger. Stellt eure Fragen und tauscht euch aus!

Weitere IT Communitys:

[email protected]

[email protected]

[email protected]

[email protected]

founded 1 year ago
MODERATORS
 

Ich bin irgendwie überhaupt nicht begeistert davon, dass meine Webseite für AI-Training oder von sonstigen Idioten gescrapt wird und dass dann die lapidare Aussage der AI-Firmen ist, dass man ja den eigenen Bot per Robots.txt ausschließen könne. Dummerweise erfährt man von der Existenz von KI-Klitsche Nummer 823 erst, wenn deren Bot in den Serverlogs auftaucht.

Aber mal ehrlich: Gibt es irgendeinen Grund, nicht einfach alle Bots außer dem von Google, Bing und DuckDuckGo auszuschließen? Meine kleine Seite muss jetzt nicht bei Yandex oder Baidu gelistet sein. Weitere irgendwie relevante Suchmaschinen fallen mir gerade nicht ein. Schau ich in die Logs, sind da dann ansonsten noch diverse Firmen dabei, mit denen ich überhaupt nichts zu tun haben will. Oder mache ich einen fundamentalen Denkfehler und schieße mir hier massiv ins Knie?

top 4 comments
sorted by: hot top controversial new old
[–] [email protected] 26 points 9 months ago

Ich denke den Datensammlern ist die robots.txt herzlich egal. Schaden sollte es jedoch nicht.

[–] [email protected] 13 points 9 months ago

Spricht überhaupt nichts dagegen. Allerdings wùrde ich nicht erwarten dass sich alle daran halten.

[–] [email protected] 9 points 9 months ago

Dein Denken ist korrekt. Du scheinst dir der Nachteile und Konsequenzen bewusst.

In dem Kontext zu erwähnen ist noch, dass die robots.txt auch keine Garantie ist. Wer die Anweisungen ignoriert oder gar nicht erst abfragt wird dadurch nicht abgefangen.

[–] [email protected] 3 points 9 months ago

Wenn du es drauf anlegen willst kannst du im robots.txt eine Seite verbieten. Wenn ein crawler dennoch auf diese zugreift kannst du ihn mit müll zu spucken, dann verlieren die Daten aktiv an wert. Alternativ einfach alle IPS blocken die drauf zugreifen.