this post was submitted on 19 Feb 2024
17 points (100.0% liked)

de_EDV

3805 readers
1 users here now

Ableger von r/de_EDV auf Lemmy.

News, Diskussionen und Hilfestellung zu Hard- und Software

Diese Community dient als Anlaufstelle für alle IT-Interessierten, egal ob Profi oder blutiger Anfänger. Stellt eure Fragen und tauscht euch aus!

Weitere IT Communitys:

[email protected]

[email protected]

[email protected]

[email protected]

founded 1 year ago
MODERATORS
 

Ich bin irgendwie überhaupt nicht begeistert davon, dass meine Webseite für AI-Training oder von sonstigen Idioten gescrapt wird und dass dann die lapidare Aussage der AI-Firmen ist, dass man ja den eigenen Bot per Robots.txt ausschließen könne. Dummerweise erfährt man von der Existenz von KI-Klitsche Nummer 823 erst, wenn deren Bot in den Serverlogs auftaucht.

Aber mal ehrlich: Gibt es irgendeinen Grund, nicht einfach alle Bots außer dem von Google, Bing und DuckDuckGo auszuschließen? Meine kleine Seite muss jetzt nicht bei Yandex oder Baidu gelistet sein. Weitere irgendwie relevante Suchmaschinen fallen mir gerade nicht ein. Schau ich in die Logs, sind da dann ansonsten noch diverse Firmen dabei, mit denen ich überhaupt nichts zu tun haben will. Oder mache ich einen fundamentalen Denkfehler und schieße mir hier massiv ins Knie?

you are viewing a single comment's thread
view the rest of the comments
[–] [email protected] 3 points 9 months ago

Wenn du es drauf anlegen willst kannst du im robots.txt eine Seite verbieten. Wenn ein crawler dennoch auf diese zugreift kannst du ihn mit müll zu spucken, dann verlieren die Daten aktiv an wert. Alternativ einfach alle IPS blocken die drauf zugreifen.