Bé, dissabte nit fent hores extres.
-
Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:
https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf
Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.
El nou robots.txt que ja tenim actiu:
@spla dobti que respecten las directivas =/
-
@spla dobti que respecten las directivas =/
@Quenti hi ha admins que tenen aquest robots.txt i no han estat escrapejats però a saber...
-
C caelumtangi@mastodont.cat shared this topic
-
Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:
https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf
Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.
El nou robots.txt que ja tenim actiu:
@spla Gràcies per la feina!
-
Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:
https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf
Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.
El nou robots.txt que ja tenim actiu:
Potser considera una "zip bomb" per als crawlers, via mod_rewrite o a nginx: un arxiu de ~7 kb que s'expandeix a uns 10 GB. Per aturar-los.
-
Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:
https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf
Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.
El nou robots.txt que ja tenim actiu:
@spla Està bé , però penso que no hi ha gaire a fer. Aquests escrapetjos es fan a diari amb OSINT. Ja sabíem que estem en una xarxa de fonts obertes, i tot i que es pugui minimitzar, aconseguiran moltes dades.
-
@spla Gràcies per la feina!
@Caelumtangi @spla estic amb la Sara: gràcies per la feina!
I, ja posats, no sé si l'html bomb que diu en @Rierol pot funcionar... -
@spla Està bé , però penso que no hi ha gaire a fer. Aquests escrapetjos es fan a diari amb OSINT. Ja sabíem que estem en una xarxa de fonts obertes, i tot i que es pugui minimitzar, aconseguiran moltes dades.
@moribundo aquesta opció funciona:
-
Potser considera una "zip bomb" per als crawlers, via mod_rewrite o a nginx: un arxiu de ~7 kb que s'expandeix a uns 10 GB. Per aturar-los.
@Rierol aquesta opció funciona:
-
@moribundo aquesta opció funciona:
@spla però es una bogeria. Passarà com YT i el bloqueig dels anuncis, una carrera de fer i desfer, d'estar atent tots els dies a bots nous o formes diferents de fer-ho, perquè aquesta gentussa està disposada a lo que sigui per tal de que la seva IA sigui la millor.
Les IAs son molt disruptives i penso que hi ha d'haver-hi un canvi de concepte global i no només fer pegats.
Pero fins que aquest moment arribi, suposo que si, que s'ha de fer l'imposible -
@spla però es una bogeria. Passarà com YT i el bloqueig dels anuncis, una carrera de fer i desfer, d'estar atent tots els dies a bots nous o formes diferents de fer-ho, perquè aquesta gentussa està disposada a lo que sigui per tal de que la seva IA sigui la millor.
Les IAs son molt disruptives i penso que hi ha d'haver-hi un canvi de concepte global i no només fer pegats.
Pero fins que aquest moment arribi, suposo que si, que s'ha de fer l'imposible@moribundo sí, poden canviar de user-agent si és que no ho estan fent ja ara o fer altres bots nous...és una bogeria
Retornar-lis un 444 no els hi dona pistes, només veuen que la connexió s'ha tallat. -
@spla Gràcies per la feina!
@Caelumtangi de res!
-
@Caelumtangi @spla estic amb la Sara: gràcies per la feina!
I, ja posats, no sé si l'html bomb que diu en @Rierol pot funcionar...@mgc de res!
@Caelumtangi @Rierol
-
Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:
https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf
Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.
El nou robots.txt que ja tenim actiu:
@spla gràcies. L'aprofitaré pel meu servidor
-
@spla gràcies. L'aprofitaré pel meu servidor
@robertgarrigos de res! no és segur que respectin robots.txt, per exemple, Amazonbot no ho fa.
Aquesta configuració per nginx els hi posa més difícil: