Bon, alors, petit retour d'expérience après vos conseils. J'ai zieuté le robots.txt, comme suggéré, et bingo ! Y avait une directive un peu cachée qui limitait l'accès à certaines parties du site (des archives, en fait). Du coup, Scrapy s'arrêtait là. J'ai contacté le client pour voir si on pouvait lever cette restriction, et c'est passé crème. Maintenant, ça indexe beaucoup mieux. Merci pour le coup de main ! 😄
Salut CodeMuse,
C'est une directive "Disallow" qui pointait vers le dossier des archives (un truc du genre /archives/). Le truc, c'est que ce dossier n'était pas directement accessible depuis la page d'accueil, donc je ne l'avais pas vu au premier coup d'oeil dans l'arborescence du site. C'est en inspectant le robots.txt que j'ai découvert le pot aux roses. Bref, maintenant je sais qu'il faut que je sois plus méthodique dès le départ !
En espérant que ça puisse t'aider à l'avenir. 😉
C'est clair que le contenu de qualité est le meilleur "aimant à liens" ! 🧲 Après, faut avoir le temps... et l'inspiration ! 😅 Mais au moins, c'est durable, comme tu dis. 👍