Lors de la migration d'un site en HTTPS, il est souvent intéressant d'obtenir la liste des pages encore en HTTP et celles déjà en HTTPS indexées par Google, afin de suivre le (bon) déroulé des opérations. Voici une syntaxe d'interrogation avancée de Google qui vous permet d'obtenir ces informations de façon simple et rapide...
La migration d'un site en HTTPS est courante (voire obligatoire) à l'heure actuelle. Lorsque ces actions sont mises en place, il est nécessaire de vérifier, après la mise en ligne, que toutes les pages du site en HTTP sont bien à nouveau indexées, cette fois en HTTPS, par Google. Il existe plusieurs façons de faire ce suivi, dont l'une avec la syntaxe "site:". Cependant, il faut bien utiliser cet opérateur car par défaut, il ne fait pas la distinction entre les URL en HTTP et celles en HTTPS. Voici donc une petite astuce pour obtenir les bons résultats et suivre au mieux votre migration...
Comment obtenir la liste des URL indexées par Google en HTTP et HTTPS ? Vidéo SEO Vidéo SEO, vidéo proposée par Olivier Andrieu (Abondance). Source de l'image : Abondance |
Voici quelques vidéos déjà publiées sur un sujet connexe :
- La syntaxe avancée d'interrogation de Google (27 septembre 2016).
- Nouveau Site Web et Compte Search Console (6 juin 2017).
- HTTPS : En 2017, Allez-y ! (10 janvier 2017).
Voici également quelques articles complémentaires (listés par ordre chronologique) pour approfondir le sujet :
- La syntaxe site: sur Google, pas très exacte ? c'est pas faux... (6 octobre 2010).
- Infographie : Syntaxe de recherche Google (19 janvier 2012).
- Google : bug sur la syntaxe "site:" (24 mai 2013).
Etc.
N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons.
bonjour , merci Olivier,
la commande site est-elle toujours ok, je croyais qu’elle ne retournait plus les bons résultats.
Merci
« Plus les bons résultats » ? c’est-à-dire ?
Olivier,
sur le moment, je m’en suis voulu de ne pas avoir appliqué plus tôt ce filtrage inurl: à mon reporting sur l’indexation https / http. Merci donc pour cette astuce.
Toutefois, quand on croise les données dans un tableau, les chiffres sont si incohérents…
La commande site:www.manageo.fr inurl:http donnait 3 URLs tout à l’heure, je n’y crois pas une minute. Puisque je sais que de nombreuses pages en http se positionnent encore sur des mots clés.
La commande site:www.manageo.fr inurl:https donne 838 000
Pourtant, un site:www.manageo.fr/& donne 3 330 000 et non 838000 + 3
De plus, la Search Console déclare avoir indexé près de 12 M en https et 675 000 en http…
Décidément tout ça est bien difficile à exploiter et à interpréter et je sais que tu n’y es pour rien! D’ailleurs, en choisissant une méthode et en s’y tenant, son évolution est généralement cohérente dans le temps, à quelques incidents près.
J’ai tendance à penser que le chiffre donné dans la search console correspond au nombre d’URLs distinctes indexables connues par Google, alors que la commande site: donnerait le nombre de pages jugées suffisamment intéressantes pour figurer dans les résultats de recherche. Comme un index secondaire et un index primaire.
Merci pour cette astuce. En toute logique, la requête -inurl:https devrait donner le même nombre de résultats que la requête inurl:http ?? J’ai testé sur plusieurs sites sur lesquels je travaille et je n’ai pas du tout le même nombre de résultats alors qu’il n’y a pas les termes « http » dans les titres des contenus. Exemple avec le site www.elleadore.com:
La requête : site:www.elleadore.com -inurl:https renvoie 1490 résultats
La requête : site:www.elleadore.com inurl:http renvoie 2000 résultats
Merci
Les résultats renvoyés par la requête « site: » ne sont pas toujours très fiables sur la SERP 1. Je vous conseille de regarder les pages de résultats suivantes, le chiffre est souvent plus exact.
Ensuite, il est toujours intéressant de compléter l’analyse par un crawl du site (par exemple avec Screaming Frog ou autre) pour s’assurer qu’il n’y a plus de pages en HTTP dans l’arborescence ou dans les liens. On a souvent pas mal de surprises à ce niveau…
Connaissez vous un outil (autre que la search console) qui permette d’avoir un export exhaustif des urls d’un site?
Merci
Voir : https://www.abondance.com/actualites/20161025-17161-combien-de-pages-a-site-web-cest-important-seo-video-seo.html
Merci pour cette astuce Olivier, je me posais justement la question après avoir migré 2 sites en HTTPS.
@ Adeline Lecellier
> L’arborescence est passée intégralement en https…
Vérifié avec un crawl complet du site ?
Je vais refaire un crawl du site complet au plus vite afin de vérifier. Merci beaucoup pour ces pistes 😉
@ Adeline Lecellier
> Comment fait on pour soumettre les urls HTTP restantes à Google ? Il y a t-il un moyen d’exporter ces 3080 pages « http » indexées ?
Malheureusement non, il faut bidouiller avec la requête « site: » + des mots clés.
Le jour où Google nous donnera de vrais outils pour optimiser proprement nos sites à ce niveau…
Ok, je n’avais en effet pas fait attention à cela.
Bonjour à tous, Comment forcer Google à désindexer ces pages qui restent en HTTP ? Cela fait presque 10 mois que nous sommes passé au HTTPS pourtant il reste encore + de 3000 pages en https dans l’état de l’indexation (search console).
N’y aurai-il pas une solution pour soumettre à google les liens restant en HTTP pour qu’il les désindexe pour de bon ??
Merci d’avance pour vos réponses, je creuse depuis quelques jours et je ne trouve pas l’info.
Le chiffre de 3000 vient de la Search Console ou de la requête site: ?
Sur la Search Console : 3080 pages indéxées
Dans la requête site: il y aurait 3030 résultats
Un sitemap XML avec les URL en HTTP et lastmod à la date du jour ?
Comment fait on pour soumettre les urls HTTP restantes à Google ? Il y a t-il un moyen d’exporter ces 3080 pages « http » indéxées ?
Sachant que les urls ont changés (optimisation seo) depuis la dernière indexation.
Une page listant ces URL avec des liens, puis « Explorer comme Google » dans la Search Console ?
Sinon, vous avez fait un crawl du site pour vérifier que ces URL ne sont plus joignables en HTTP dans l’arbo inetrne (un grand classique) ?
Même s’il y a des 301, ça bloque souvent Google. Toute l’arbo doit être en HTTPS…
L’arborescence est passée intégralement en https…
La page https://www.abondance.com/actualites/20170829-18374-obtenir-liste-url-indexees-google-http-https-video-seo.html ressort sur la requête « site:www.abondance.com inurl:http » puisqu’il y a le terme « http » dans l’intitulé de l’URL : « obtenir-liste-url-indexees-google-http-https-video-seo.html « .
C’est un effet de bord qui va toucher toutes les pages qui ont le terme « http » dans l’URL ailleurs que dans le protocole. Mais ça ne concerne que peu de pages et il est facile de les éliminer de l’analyse.
Pas sûr de comprendre votre dernier commentaire.
Et pourtant : http://www.hostingpics.net/viewer.php?id=74512520170829171418CultOfLunaWaitingforYouLive.png
Oui, il y a « http » dans le titre de l’article donc dans l’URL aussi :))))
Etant donné que la chaîne http est inclue dans https, site:www.abondance.com inurl:http listera aussi bien les résultats http que https. Inurl ne filtre pas sur le protocole, mais uniquement sur la présence de la chaîne dans l’url…
Pour ne lister que le http, j’utilise du coup uniquement site:www.abondance.com -inurl:https (pour lister tout ce qui n’utilise pas le protocole https).
Euh non non, la requête site:www.abondance.com inurl:http filtre bien sur la présence de « http » dans l’URL et n’affiche donc pas les pages en https. Voir : https://www.google.fr/search?q=site:www.abondance.com+inurl:http
Votre video 57 semblait en conclusion conseiller d’utiliser search console (« état de l’indexation ») pour savoir ce qui en est de l’indexation du https.
Vu les grandes divergences possibles entre le chiffre de la commande site (ou site-inurl) et celui de search console, lequel est le plus fiable et le plus rapidement mis à jour pour le https?
Search console pour le https me semble-t-il. La commande site étant assez aléatoire et variable (entre autres en fonction du data center).
Pas évident. A mon avis, il faut utilsier les 2.
– Commande « site: » plus souvent mis à jour mais moins fiable.
– Search Console plus fiable mais moins souvent mise à jour.
Aucune des 2 possibilités n’est parfaite. Perso, j’utilise les 2…
Merci pour cette astuce.