Skip to content
  • Categories
  • Recent
  • Tags
  • Popular
  • World
  • Users
  • Groups
Skins
  • Light
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • Default (No Skin)
  • No Skin
Collapse

FòrumCAT

  1. Home
  2. Uncategorized
  3. Bé, dissabte nit fent hores extres.

Bé, dissabte nit fent hores extres.

Scheduled Pinned Locked Moved Uncategorized
metamanteniment
15 Posts 7 Posters 0 Views
  • Oldest to Newest
  • Newest to Oldest
  • Most Votes
Reply
  • Reply as topic
Log in to reply
This topic has been deleted. Only users with topic management privileges can see it.
  • spla@mastodont.catS This user is from outside of this forum
    spla@mastodont.catS This user is from outside of this forum
    spla@mastodont.cat
    wrote last edited by spla@mastodont.cat
    #1

    Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:

    https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf

    Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.

    El nou robots.txt que ja tenim actiu:

    https://mastodont.cat/robots.txt

    #manteniment

    quenti@framapiaf.orgQ caelumtangi@mastodont.catC rierol@mastodont.catR moribundo@hispagatos.spaceM robertgarrigos@mastodont.catR 5 Replies Last reply
    1
    0
    • spla@mastodont.catS spla@mastodont.cat

      Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:

      https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf

      Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.

      El nou robots.txt que ja tenim actiu:

      https://mastodont.cat/robots.txt

      #manteniment

      quenti@framapiaf.orgQ This user is from outside of this forum
      quenti@framapiaf.orgQ This user is from outside of this forum
      quenti@framapiaf.org
      wrote last edited by
      #2

      @spla dobti que respecten las directivas =/

      spla@mastodont.catS 1 Reply Last reply
      0
      • quenti@framapiaf.orgQ quenti@framapiaf.org

        @spla dobti que respecten las directivas =/

        spla@mastodont.catS This user is from outside of this forum
        spla@mastodont.catS This user is from outside of this forum
        spla@mastodont.cat
        wrote last edited by
        #3

        @Quenti hi ha admins que tenen aquest robots.txt i no han estat escrapejats però a saber...

        1 Reply Last reply
        0
        • caelumtangi@mastodont.catC caelumtangi@mastodont.cat shared this topic
        • spla@mastodont.catS spla@mastodont.cat

          Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:

          https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf

          Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.

          El nou robots.txt que ja tenim actiu:

          https://mastodont.cat/robots.txt

          #manteniment

          caelumtangi@mastodont.catC This user is from outside of this forum
          caelumtangi@mastodont.catC This user is from outside of this forum
          caelumtangi@mastodont.cat
          wrote last edited by
          #4

          @spla Gràcies per la feina!

          mgc@mastodont.catM spla@mastodont.catS 2 Replies Last reply
          0
          • spla@mastodont.catS spla@mastodont.cat

            Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:

            https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf

            Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.

            El nou robots.txt que ja tenim actiu:

            https://mastodont.cat/robots.txt

            #manteniment

            rierol@mastodont.catR This user is from outside of this forum
            rierol@mastodont.catR This user is from outside of this forum
            rierol@mastodont.cat
            wrote last edited by
            #5

            @spla

            Potser considera una "zip bomb" per als crawlers, via mod_rewrite o a nginx: un arxiu de ~7 kb que s'expandeix a uns 10 GB. Per aturar-los.

            spla@mastodont.catS 1 Reply Last reply
            0
            • spla@mastodont.catS spla@mastodont.cat

              Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:

              https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf

              Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.

              El nou robots.txt que ja tenim actiu:

              https://mastodont.cat/robots.txt

              #manteniment

              moribundo@hispagatos.spaceM This user is from outside of this forum
              moribundo@hispagatos.spaceM This user is from outside of this forum
              moribundo@hispagatos.space
              wrote last edited by
              #6

              @spla Està bé , però penso que no hi ha gaire a fer. Aquests escrapetjos es fan a diari amb OSINT. Ja sabíem que estem en una xarxa de fonts obertes, i tot i que es pugui minimitzar, aconseguiran moltes dades.

              spla@mastodont.catS 1 Reply Last reply
              0
              • caelumtangi@mastodont.catC caelumtangi@mastodont.cat

                @spla Gràcies per la feina!

                mgc@mastodont.catM This user is from outside of this forum
                mgc@mastodont.catM This user is from outside of this forum
                mgc@mastodont.cat
                wrote last edited by
                #7

                @Caelumtangi @spla estic amb la Sara: gràcies per la feina!
                I, ja posats, no sé si l'html bomb que diu en @Rierol pot funcionar...

                spla@mastodont.catS 1 Reply Last reply
                0
                • moribundo@hispagatos.spaceM moribundo@hispagatos.space

                  @spla Està bé , però penso que no hi ha gaire a fer. Aquests escrapetjos es fan a diari amb OSINT. Ja sabíem que estem en una xarxa de fonts obertes, i tot i que es pugui minimitzar, aconseguiran moltes dades.

                  spla@mastodont.catS This user is from outside of this forum
                  spla@mastodont.catS This user is from outside of this forum
                  spla@mastodont.cat
                  wrote last edited by
                  #8

                  @moribundo aquesta opció funciona:

                  https://mastodont.cat/@spla/115003088710337501

                  moribundo@hispagatos.spaceM 1 Reply Last reply
                  0
                  • rierol@mastodont.catR rierol@mastodont.cat

                    @spla

                    Potser considera una "zip bomb" per als crawlers, via mod_rewrite o a nginx: un arxiu de ~7 kb que s'expandeix a uns 10 GB. Per aturar-los.

                    spla@mastodont.catS This user is from outside of this forum
                    spla@mastodont.catS This user is from outside of this forum
                    spla@mastodont.cat
                    wrote last edited by
                    #9

                    @Rierol aquesta opció funciona:

                    https://mastodont.cat/@spla/115003088710337501

                    1 Reply Last reply
                    0
                    • spla@mastodont.catS spla@mastodont.cat

                      @moribundo aquesta opció funciona:

                      https://mastodont.cat/@spla/115003088710337501

                      moribundo@hispagatos.spaceM This user is from outside of this forum
                      moribundo@hispagatos.spaceM This user is from outside of this forum
                      moribundo@hispagatos.space
                      wrote last edited by
                      #10

                      @spla però es una bogeria. Passarà com YT i el bloqueig dels anuncis, una carrera de fer i desfer, d'estar atent tots els dies a bots nous o formes diferents de fer-ho, perquè aquesta gentussa està disposada a lo que sigui per tal de que la seva IA sigui la millor.
                      Les IAs son molt disruptives i penso que hi ha d'haver-hi un canvi de concepte global i no només fer pegats.
                      Pero fins que aquest moment arribi, suposo que si, que s'ha de fer l'imposible

                      spla@mastodont.catS 1 Reply Last reply
                      0
                      • moribundo@hispagatos.spaceM moribundo@hispagatos.space

                        @spla però es una bogeria. Passarà com YT i el bloqueig dels anuncis, una carrera de fer i desfer, d'estar atent tots els dies a bots nous o formes diferents de fer-ho, perquè aquesta gentussa està disposada a lo que sigui per tal de que la seva IA sigui la millor.
                        Les IAs son molt disruptives i penso que hi ha d'haver-hi un canvi de concepte global i no només fer pegats.
                        Pero fins que aquest moment arribi, suposo que si, que s'ha de fer l'imposible

                        spla@mastodont.catS This user is from outside of this forum
                        spla@mastodont.catS This user is from outside of this forum
                        spla@mastodont.cat
                        wrote last edited by spla@mastodont.cat
                        #11

                        @moribundo sí, poden canviar de user-agent si és que no ho estan fent ja ara o fer altres bots nous...és una bogeria 😅
                        Retornar-lis un 444 no els hi dona pistes, només veuen que la connexió s'ha tallat.

                        1 Reply Last reply
                        0
                        • caelumtangi@mastodont.catC caelumtangi@mastodont.cat

                          @spla Gràcies per la feina!

                          spla@mastodont.catS This user is from outside of this forum
                          spla@mastodont.catS This user is from outside of this forum
                          spla@mastodont.cat
                          wrote last edited by
                          #12

                          @Caelumtangi de res! 😃

                          1 Reply Last reply
                          0
                          • mgc@mastodont.catM mgc@mastodont.cat

                            @Caelumtangi @spla estic amb la Sara: gràcies per la feina!
                            I, ja posats, no sé si l'html bomb que diu en @Rierol pot funcionar...

                            spla@mastodont.catS This user is from outside of this forum
                            spla@mastodont.catS This user is from outside of this forum
                            spla@mastodont.cat
                            wrote last edited by
                            #13

                            @mgc de res! 😃 @Caelumtangi @Rierol

                            1 Reply Last reply
                            0
                            • spla@mastodont.catS spla@mastodont.cat

                              Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:

                              https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf

                              Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.

                              El nou robots.txt que ja tenim actiu:

                              https://mastodont.cat/robots.txt

                              #manteniment

                              robertgarrigos@mastodont.catR This user is from outside of this forum
                              robertgarrigos@mastodont.catR This user is from outside of this forum
                              robertgarrigos@mastodont.cat
                              wrote last edited by
                              #14

                              @spla gràcies. L'aprofitaré pel meu servidor

                              spla@mastodont.catS 1 Reply Last reply
                              0
                              • robertgarrigos@mastodont.catR robertgarrigos@mastodont.cat

                                @spla gràcies. L'aprofitaré pel meu servidor

                                spla@mastodont.catS This user is from outside of this forum
                                spla@mastodont.catS This user is from outside of this forum
                                spla@mastodont.cat
                                wrote last edited by
                                #15

                                @robertgarrigos de res! no és segur que respectin robots.txt, per exemple, Amazonbot no ho fa.
                                Aquesta configuració per nginx els hi posa més difícil:

                                https://mastodont.cat/@spla/115003142925516589

                                1 Reply Last reply
                                0
                                Reply
                                • Reply as topic
                                Log in to reply
                                • Oldest to Newest
                                • Newest to Oldest
                                • Most Votes


                                • Login

                                • First post
                                  Last post
                                0
                                • Categories
                                • Recent
                                • Tags
                                • Popular
                                • World
                                • Users
                                • Groups