Comment obtenir la liste des URL indexées par Google en HTTP et HTTPS ? Vidéo SEO

Olivier Andrieu / 29 Août 2017 à 07h55

Temps de lecture : 2 minutes

Partagez l'article

Lors de la migration d'un site en HTTPS, il est souvent intéressant d'obtenir la liste des pages encore en HTTP et celles déjà en HTTPS indexées par Google, afin de suivre le (bon) déroulé des opérations. Voici une syntaxe d'interrogation avancée de Google qui vous permet d'obtenir ces informations de façon simple et rapide...

La migration d'un site en HTTPS est courante (voire obligatoire) à l'heure actuelle. Lorsque ces actions sont mises en place, il est nécessaire de vérifier, après la mise en ligne, que toutes les pages du site en HTTP sont bien à nouveau indexées, cette fois en HTTPS, par Google. Il existe plusieurs façons de faire ce suivi, dont l'une avec la syntaxe "site:". Cependant, il faut bien utiliser cet opérateur car par défaut, il ne fait pas la distinction entre les URL en HTTP et celles en HTTPS. Voici donc une petite astuce pour obtenir les bons résultats et suivre au mieux votre migration...

Comment obtenir la liste des URL indexées par Google en HTTP et HTTPS ? Vidéo SEO Vidéo SEO, vidéo proposée par Olivier Andrieu (Abondance).
Source de l'image : Abondance

Voici quelques vidéos déjà publiées sur un sujet connexe :
- La syntaxe avancée d'interrogation de Google (27 septembre 2016).
- Nouveau Site Web et Compte Search Console (6 juin 2017).
- HTTPS : En 2017, Allez-y ! (10 janvier 2017).

Voici également quelques articles complémentaires (listés par ordre chronologique) pour approfondir le sujet :
- La syntaxe site: sur Google, pas très exacte ? c'est pas faux... (6 octobre 2010).
- Infographie : Syntaxe de recherche Google (19 janvier 2012).
- Google : bug sur la syntaxe "site:" (24 mai 2013).
Etc.

N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons.

Auteur : Olivier Andrieu.

Olivier Andrieu

Fondateur Abondance

Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

29 Commentaires

Matthieu sur 2 octobre 2017 à 12 h 56 min

bonjour , merci Olivier,

la commande site est-elle toujours ok, je croyais qu’elle ne retournait plus les bons résultats.
Merci
Réponse
- Olivier Andrieu sur 2 octobre 2017 à 18 h 57 min
  
  « Plus les bons résultats » ? c’est-à-dire ?
  Réponse
Philippe LAINE sur 6 septembre 2017 à 18 h 03 min

Olivier,
sur le moment, je m’en suis voulu de ne pas avoir appliqué plus tôt ce filtrage inurl: à mon reporting sur l’indexation https / http. Merci donc pour cette astuce.

Toutefois, quand on croise les données dans un tableau, les chiffres sont si incohérents…
La commande site:www.manageo.fr inurl:http donnait 3 URLs tout à l’heure, je n’y crois pas une minute. Puisque je sais que de nombreuses pages en http se positionnent encore sur des mots clés.

La commande site:www.manageo.fr inurl:https donne 838 000

Pourtant, un site:www.manageo.fr/& donne 3 330 000 et non 838000 + 3

De plus, la Search Console déclare avoir indexé près de 12 M en https et 675 000 en http…

Décidément tout ça est bien difficile à exploiter et à interpréter et je sais que tu n’y es pour rien! D’ailleurs, en choisissant une méthode et en s’y tenant, son évolution est généralement cohérente dans le temps, à quelques incidents près.

J’ai tendance à penser que le chiffre donné dans la search console correspond au nombre d’URLs distinctes indexables connues par Google, alors que la commande site: donnerait le nombre de pages jugées suffisamment intéressantes pour figurer dans les résultats de recherche. Comme un index secondaire et un index primaire.
Réponse
vpissavy sur 5 septembre 2017 à 17 h 41 min

Merci pour cette astuce. En toute logique, la requête -inurl:https devrait donner le même nombre de résultats que la requête inurl:http ?? J’ai testé sur plusieurs sites sur lesquels je travaille et je n’ai pas du tout le même nombre de résultats alors qu’il n’y a pas les termes « http » dans les titres des contenus. Exemple avec le site www.elleadore.com:
La requête : site:www.elleadore.com -inurl:https renvoie 1490 résultats
La requête : site:www.elleadore.com inurl:http renvoie 2000 résultats
Merci
Réponse
- Olivier Andrieu sur 6 septembre 2017 à 8 h 48 min
  
  Les résultats renvoyés par la requête « site: » ne sont pas toujours très fiables sur la SERP 1. Je vous conseille de regarder les pages de résultats suivantes, le chiffre est souvent plus exact.
  Ensuite, il est toujours intéressant de compléter l’analyse par un crawl du site (par exemple avec Screaming Frog ou autre) pour s’assurer qu’il n’y a plus de pages en HTTP dans l’arborescence ou dans les liens. On a souvent pas mal de surprises à ce niveau…
  Réponse
JULIE CHALAYER sur 4 septembre 2017 à 10 h 11 min

Connaissez vous un outil (autre que la search console) qui permette d’avoir un export exhaustif des urls d’un site?
Merci
Réponse
- Olivier Andrieu sur 4 septembre 2017 à 10 h 18 min
  
  Voir : https://www.abondance.com/actualites/20161025-17161-combien-de-pages-a-site-web-cest-important-seo-video-seo.html
  Réponse
Stéphane C. sur 31 août 2017 à 12 h 56 min

Merci pour cette astuce Olivier, je me posais justement la question après avoir migré 2 sites en HTTPS.
Réponse
Olivier Andrieu sur 29 août 2017 à 17 h 41 min

@ Adeline Lecellier
> L’arborescence est passée intégralement en https…

Vérifié avec un crawl complet du site ?
Réponse
- Adeline Lecellier sur 29 août 2017 à 17 h 46 min
  
  Je vais refaire un crawl du site complet au plus vite afin de vérifier. Merci beaucoup pour ces pistes 😉
  Réponse
Olivier Andrieu sur 29 août 2017 à 17 h 39 min

@ Adeline Lecellier
> Comment fait on pour soumettre les urls HTTP restantes à Google ? Il y a t-il un moyen d’exporter ces 3080 pages « http » indexées ?

Malheureusement non, il faut bidouiller avec la requête « site: » + des mots clés.
Le jour où Google nous donnera de vrais outils pour optimiser proprement nos sites à ce niveau…
Réponse
Vladkergan sur 29 août 2017 à 17 h 26 min

Ok, je n’avais en effet pas fait attention à cela.
Réponse
Adeline Lecellier sur 29 août 2017 à 17 h 24 min

Bonjour à tous, Comment forcer Google à désindexer ces pages qui restent en HTTP ? Cela fait presque 10 mois que nous sommes passé au HTTPS pourtant il reste encore + de 3000 pages en https dans l’état de l’indexation (search console).

N’y aurai-il pas une solution pour soumettre à google les liens restant en HTTP pour qu’il les désindexe pour de bon ??

Merci d’avance pour vos réponses, je creuse depuis quelques jours et je ne trouve pas l’info.
Réponse
- Olivier Andrieu sur 29 août 2017 à 17 h 25 min
  
  Le chiffre de 3000 vient de la Search Console ou de la requête site: ?
  Réponse
  - Adeline Lecellier sur 29 août 2017 à 17 h 27 min
    
    Sur la Search Console : 3080 pages indéxées
    Dans la requête site: il y aurait 3030 résultats
    Réponse
    - Olivier Andrieu sur 29 août 2017 à 17 h 32 min
      
      Un sitemap XML avec les URL en HTTP et lastmod à la date du jour ?
      Réponse
      - Adeline Lecellier sur 29 août 2017 à 17 h 37 min
        
        Comment fait on pour soumettre les urls HTTP restantes à Google ? Il y a t-il un moyen d’exporter ces 3080 pages « http » indéxées ?
        
        Sachant que les urls ont changés (optimisation seo) depuis la dernière indexation.
    - Olivier Andrieu sur 29 août 2017 à 17 h 33 min
      
      Une page listant ces URL avec des liens, puis « Explorer comme Google » dans la Search Console ?
      Réponse
    - Olivier Andrieu sur 29 août 2017 à 17 h 34 min
      
      Sinon, vous avez fait un crawl du site pour vérifier que ces URL ne sont plus joignables en HTTP dans l’arbo inetrne (un grand classique) ?
      Même s’il y a des 301, ça bloque souvent Google. Toute l’arbo doit être en HTTPS…
      Réponse
      - Adeline Lecellier sur 29 août 2017 à 17 h 40 min
        
        L’arborescence est passée intégralement en https…
Olivier Andrieu sur 29 août 2017 à 17 h 22 min

La page https://www.abondance.com/actualites/20170829-18374-obtenir-liste-url-indexees-google-http-https-video-seo.html ressort sur la requête « site:www.abondance.com inurl:http » puisqu’il y a le terme « http » dans l’intitulé de l’URL : « obtenir-liste-url-indexees-google-http-https-video-seo.html « .
C’est un effet de bord qui va toucher toutes les pages qui ont le terme « http » dans l’URL ailleurs que dans le protocole. Mais ça ne concerne que peu de pages et il est facile de les éliminer de l’analyse.
Réponse
Vladkergan sur 29 août 2017 à 17 h 19 min

Pas sûr de comprendre votre dernier commentaire.
Réponse
Vladkergan sur 29 août 2017 à 17 h 15 min

Et pourtant : http://www.hostingpics.net/viewer.php?id=74512520170829171418CultOfLunaWaitingforYouLive.png
Réponse
- Olivier Andrieu sur 29 août 2017 à 17 h 16 min
  
  Oui, il y a « http » dans le titre de l’article donc dans l’URL aussi :))))
  Réponse
Vladkergan sur 29 août 2017 à 17 h 04 min

Etant donné que la chaîne http est inclue dans https, site:www.abondance.com inurl:http listera aussi bien les résultats http que https. Inurl ne filtre pas sur le protocole, mais uniquement sur la présence de la chaîne dans l’url…

Pour ne lister que le http, j’utilise du coup uniquement site:www.abondance.com -inurl:https (pour lister tout ce qui n’utilise pas le protocole https).
Réponse
- Olivier Andrieu sur 29 août 2017 à 17 h 08 min
  
  Euh non non, la requête site:www.abondance.com inurl:http filtre bien sur la présence de « http » dans l’URL et n’affiche donc pas les pages en https. Voir : https://www.google.fr/search?q=site:www.abondance.com+inurl:http
  Réponse
Jo sur 29 août 2017 à 16 h 38 min

Votre video 57 semblait en conclusion conseiller d’utiliser search console (« état de l’indexation ») pour savoir ce qui en est de l’indexation du https.

Vu les grandes divergences possibles entre le chiffre de la commande site (ou site-inurl) et celui de search console, lequel est le plus fiable et le plus rapidement mis à jour pour le https?

Search console pour le https me semble-t-il. La commande site étant assez aléatoire et variable (entre autres en fonction du data center).
Réponse
- Olivier Andrieu sur 29 août 2017 à 16 h 42 min
  
  Pas évident. A mon avis, il faut utilsier les 2.
  – Commande « site: » plus souvent mis à jour mais moins fiable.
  – Search Console plus fiable mais moins souvent mise à jour.
  Aucune des 2 possibilités n’est parfaite. Perso, j’utilise les 2…
  Réponse
Ricardo Da Silva sur 29 août 2017 à 14 h 39 min

Merci pour cette astuce.
Réponse

Laisser un commentaire Annuler la réponse

Comment obtenir la liste des URL indexées par Google en HTTP et HTTPS ? Vidéo SEO

Articles complémentaires :

Comment écrire des prompts pour obtenir de meilleurs résultats ?

Goossips SEO : last-modified dans l’en-tête HTTP

Goossips SEO : URLs indexées, refonte de site

8 tactiques SEO avancées recommandées par les experts en 2024

Mise à jour de la politique d’évaluation des produits de Google sur les avis générés par IA

Comment (bien) calculer le ROI des chantiers SEO