ai.robots.txt

0 minute read

Ich bin vor kurzem über ai.robots.txt gestolpert. Dabei handelt es sich um ein GitHub-Repository das das Ziel verfolgt, eine möglichst umfassende robots.txt aufzubauen um Web Crawler daran zu hindern, den eigenen Blog-Content einzulesen und z.B. für AI-Training zu missbrauchen. Ganz verhindern lässt es sich dadurch vermutlich trotzdem nicht (siehe “Wired Confirms Perplexity Is Bypassing Efforts by Websites to Block Its Web Crawler” und der darin zitierte Wired-Artikel “Perplexity is a Bullshit Machine”) aber keine robots.txt ist auch keine Lösung.