Le but de ce blog est de poser un certain nombre de questions sur les moteurs de recherche et le référencement et de susciter le débat sur ces interrogations*. Dans ce cadre, je parlais dans l'un de mes précédents posts du fait que les éditeurs et web-agency ne prenaient pas en compte les contraintes des moteurs de recherche dans leur processus de création de site. Un lecteur faisait remarquer avec raison, dans son commentaire, que l'inverse pouvait également être vrai : pourquoi les moteurs ne s'adaptent-ils pas à la réalité de la création de sites en indexant le format Flash, en suivant les liens JavaScript, etc.
Cela m'a fait penser qu'effectivement, les moteurs de recherche, depuis leur création, accusent un retard d'environ deux ans entre la façon dont ils indexent les sites et la manière dont ces derniers sont créés. Il y a quelques années de cela, la "norme" était de créer des sites web avec des "frames" (ou cadres). Et certains moteurs, comme Excite, refusaient purement et simplement ce type de site. Les autres les indexaient mal. Puis est venu l'époque des sites dynamiques, dont les urls "exotiques" affichaient moult point d'interrogation, esperluettes et autres caractères synonymes de passage de paramètres qui rendaient l'indexation difficile voire impossible.
Aujourd'hui, les sites avec frames ne posent plus vraiment de problèmes à partir du moment où le nécessaire a été fait pour leur référencement. La problématique des sites dynamiques est en voie d'être résolue car les urls "exotiques" sont mieux comprises. D'autre part, les système de réécriture d'url permettent également d'obtenir une situation plus "propre"... Mais depuis plusieurs années, le format Flash et la langage JavaScript sont devenus des standards de fait dans la création de site. Et ils posent toujours des problèmes aux moteurs. Est-ce réellement normal ?
Pourtant, Macromedia, inventeur du Flash, propose un SDK (Software Development Kit) pour les moteurs de recherche, permettant à ces derniers d'indexer les contenu des animations créées. Rien n'empêche vraiment les Google et consorts de s'en servir pour mieux indexer ce format. D'autre part, le fait que des robots sachent suivre des liens écrits en JavaScript ne doit pas non plus être insurmontable lorsqu'on résoud au quotidien des problèmes bien plus importants de volume de données, d'algorithme de pertinence pointu ou autres problématiques réseau...
Alors, qu'est-ce qui fait que les moteurs ont le plus souvent ces deux ans de retard sur les standards de fait de la création de site web ? Difficile de le dire... Mais Google, dont l'un des credos est de "rendre accessibles et utiles les informations du réseau mondial à tous les internautes" ne faillit-il pas à sa mission en "comprenant" mal ces "nouveaux" - le terme n'est que relatif - formats ? Il en est d'ailleurs de même des autres moteurs... Avant de chercher à indexer les vidéos, les blogs, la musique, et tous les autres formats de cette planète, ne faudrait-il pas s'attacher à une plus grande exhaustivité de l'indexation web ? Ou les moteurs désirent-ils avant tout dicter leurs propres "lois" de création de site ? Il est certain que si les web-agencies ne tiennent pas compte des contraintes actuelles des moteurs et que ces derniers ne font pas de gros efforts pour indexer les formats en cours, la situation a peu de chance d'évoluer rapidement. C'est certainement aux deux parties de faire un effort conjoint...
A l'heure où on nous parle à tout va du Web 2.0, jusqu'à quand les moteurs en resteront-ils à sa version 1.0 ? L'avenir le dira certainement...
* J'en profite d'ailleurs pour remercier les lecteurs de ce blog pour leurs commentaires, le plus souvent - et à de rares exceptions près - très constructifs, argumentés et intéressants...
L’HTML standard W3C vaut bien mieux que du javascript… parce qu’il n’y a pas de standard pour faire des liens en javascript (Je me trompe ?)
je suis néophyte en la matiere. toutefois j’ai créé un petit site qui s’appelle : www.les vadrouilleuses.ch. Effectivement je ne le trouve sur aucun moteur de recherche, alors que je pensais que cela se ferait automatiquement.
Un commentaire un peu plus complet de ma part concernant JavaScript et les moteurs de recherche.
Cordialement.
Pour les images, les moteurs se simplifierait la vie en prenant en compte leurs meta données (Exif et surtout IPTC), mais encore faudrait il qu’ils soient utilisés dans les formats webs.
Un autre problème important, qui concerne un grand nombre de sites, notamment e-commerce, est la gestion des sessions d’utilisateurs (cookie ou session ID dans l’URL). Ces sites ont en général un contenu plus pertinent que les éléments Flash d’un site et leur indexation est un vrai problème.
Les spiders ne peuvent à priori pas gérer les cookies, donc un site avec des cookies obligatoires les bloque totalement.
Les IDs de session dans les URLs sont plus ou moins bien gérés. Dans certains cas, les moteurs les connaissent et parviennent à les supprimer des URLs. Cela leur évite d’indexer des doublons. On pourrait imaginer de rendre la chose systématique en indiquant dans un meta le paramètre de session à supprimer.
Reste le problème des sites pour lesquels avoir une session valide est obligatoire. Impossible de faire arriver l’internaute sur une page interne. Une solution pourrait consister à créer une session « special moteurs » qui n’expirerait pas, mais cela poserait d’autres problèmes lors de la navigation sur le site…
Bonsoir,
Henry4, je pense qu’ici personne ne discute de l’apport et de l’intérêt des moteurs de recherche, ni même, probablement, de l’impulsion qu’a donné Google dans ce domaine. Il s’agit simplement de constater que le Web évolue et les moteurs devraient évoluer avec. Surtout ceux qui ont les ressources et encore plus quand on met à leur disposition les solutions techniques comme dans le cas du Flash (SDK), ainsi que l’indique Olivier dans son argumentation.
De plus, je pense que votre dernière comparaison avec les internautes qui ne sont pas équipés d’écran 19″ n’a pas lieu d’être. Les moteurs de recherche tire leur raison d’être des sites Web, alors que les sites existent pour toucher les internautes. Si les webmasters veulent toucher un maximum de monde, il faut qu’ils conçoivent leur site en fonction de la façon de consommer du Web de leurs différentes cibles (l’accessibilité, la simplicité d’utilisation, le contenu, le design,…). Les sites peuvent exister sans moteurs de recherches (certes ça complique leur diffusion auprès du public), mais, par contre, les moteurs ne peuvent exister sans les sites. Tout ça pour vous faire comprendre que je crois vraiment que les moteurs gagneraient en pertinence à intégrer les différents formats utilisés. Ici, il ne s’agit pas de discuté du bien fondé, pour la conception de sites, de mettre en place tel ou tel technologie, mais bien d’envisager de les prendre toutes en compte dans le système d’indexation des moteurs de recherches. Et là je réitère la conclusion de mon premier commentaire, et notamment la dernière partie, si les moteurs ne s’y adaptent pas ils peuvent perdre du terrain (que je ne m’aventurerai pas à évaluer) face aux annuaires et aux moteurs collaboratif.
Bonsoir,
La lettre d’Abondance avec ce titre « Un web de retard » m’ont attiré et je dois préciser que je ne suis pas d’accord sur tout.
Je précise mon analyse : Google est une entreprise et à ce titre son crédo est le profit. Il est évident que sans les millions de page perso amateurs ou semi amateurs (je parle de ces sites de petits commerçants et artisans) qui tournent comme des mouches autour d’une lampe, la lecture du serveur de Google serait plus « aérée ». Donc si on veut bien rester mesuré dans nos jugements, avouons que nous n’avons pas créé la richesse de Google. Et par voie de conséquence, sans Google nous n’existerions pas car nous serions d’illustres inconnus. J’ai oublié de préciser que Google ou les autres moteurs c’est idem.
Par expérience j’ai toujours suggéré sur mon site de chercher un bon référencement à travers la richesse du contenu, présenté plutôt sobrement et non sous forme de sapin de noël avec des gifs animés partout. Je parlerai aussi des « fotes » qui truffent certains pages, et si le flash n’est pas encore pris en compte, il faut souligner que les sites pro, donc à valeur ajoutée intéressante, font sobre ce qui n’empêche pas le design, et s’appliquent surtout à faire passer leurs messages sans heurter le visiteur ni l’importuner avec des avancées technologiques du plus bel effet mais peu rentables. Et c’est aussi oublier la frange importante de surfeurs qui rament encore sans l’ADSL.On aurait souvent tendance à les oublier et un de mes amis qui roule plein gaz ne comprend pas pourquoi je lui conseille de réduire par exemple le poids de ses images. Il existe des logiciels super.
Autrement dit nous sommes les bénéficiaires privilégiés car nous affichons gratuitement. Ensuite rien ne justifie que les moteurs suivent nos cadences si le profit n’est pas au rendez-vous. Enfin je terminerai là en précisant que Google, serait à inventer s’il n’existait pas.
Et si je venais dire que les internautes qui n’ont pas d’écran 19″ sont des retardés, qui souvent doivent jongler avec les barres de défilement, car le concepteur n’a pensé qu’à lui, trouveriez-vous celà logique.
Merci de l’accueil sur ce blog et bien @micalement
henry
Si on se pose la question de la pertinence et de l’exhaustivité, il y aussi à se demander si chacun est dans son métier (et sa valeur ajoutée) ou pas.
Le créateur de site crée du contenu ou le fait créer par d’autres, dans le cas des forums notamment. Des avis intéressants, astuces ou discussions de référence s’y créent tous les jours.
Le travail du gestionnaire ou administrateur de forum est d’assurer la sauvegarde physique, l’orientation ou la catégorisation des discussions.
Le travail du moteur de recherche est d’indexer ce qui se trouve sur le web dans un format largement répandu, pas seulement en HTML « canonique ».
Or pour l’instant pour faire indexer correctement un forum en PHP (quelques millions d’installations de PhpBB quand même!) il faut que l’administrateur fasse lui-même et à la main ce que des milliers d’autres ont dû faire avant lui: de la réécriture d’URL pour faire la partie du travail du moteur de recherche que celui-ci ne fait pas.
Le webmaster devrait n’avoir à s’occuper que de la pertinence des informations à indexer, pas de leur présentation physique qui si elle est lisible avec un navigateur standard, devrait être prise en compte par le moteur: l’utilisateur moyen du Web le voit par son navigateur, pas par un bot.
Le décalage de 2 ans ne serait-il pas le retard de développement des bots par rapport aux navigateurs de monsieur tout le monde?
J’ai pris la précaution dans mon premier commentaire de mettre de coté les problèmes d’accessibilité et de l’intérêt pour un webmaster de suivre les règles des moteurs, qui, à mon sens, ne concerne pas le moteur de recherche.
En effet, le respect des standards, l’accessibilité c’est l’affaire des concepteurs de sites et des organismes de standardisation, pas des moteurs de recherche. Leur demander de contribuer au respect des standards en n’indexant pas les sites contrevenants, ne me paraît pas justifié. L’incitation doit venir du W3C et des personnes qui y sont sensibles, puisqu’il n’existe pas, en la matière, d’organisation ayant un pouvoir coercitif.
Quand au problème de bookmarker une animation flash, il s’agit plutôt d’une demande à faire aux éditeurs de navigateurs.
Bref, c’est pas parce que des sites n’ont pas été conçu dans le respect des standards ou que certaines technologies n’ont pas été standardisées, ou bien qu’elles ne sont pas accessibles par tous, que les moteurs ne doivent pas les prendre en compte. Leur contenu peut tout à fait être de qualité et être utile aux personnes en capacité d’y accéder.
Bonjour Olivier,
très bon post, les pb soulevés sont pertinents et les commentaires le sont tout autant.
Je rejoins les commentaires sur le fait que que l’indexation d’un site flash ne serait que rarement pertinente (renvoi vers la page d’accueil et non sur la page recherchée, pb d’accessibilité sur les terminaux mobiles…).
De plus, un site tout en flash répond à une logique de design, d’animation et d’interactivité plus qu’à une logique de contenus. Il est donc normal que ces contenus soient moins bien référencés.
Franchement qui aurait envie de consulter lemonde.fr ou un blog d’expert en flash. De même, qui voudrait lire Le Monde (version papier) ou autre journal d’information sur une maquette de type Entrevue, Paris Match ou Choc.
Mon avis, Google et autres moteurs privilégient le fond sur la forme… et c’est pas plus mal.
Bonjour
C’est vrai, je trouve que Google devrait plus communiquer autour de ces problématiques d’accessibilité, non ?
Olivier
Je me joins aussi pour prendre en compte la problématique du respect du code conforme et de l’accessibilité. Google le dit lui-même : « rendre accessibles et utiles les informations du réseau mondial à tous les internautes »
Tous les internautes : veut dire les mal-voyants, les ordinateurs ne disposant pas de plugin additionnels, les lecteurs texte, les tél portables, etc.. Tous les internautes.
Or, dans cet esprit, le javascript et le flash sont des freins importants. Google essaie de militer pour un usage plus parcimonieux et plus raisonnable du javascript ou du flash.
Je me joins aux avis de Christophe et Dominique : Google et consorts ont choisi de prendre comme norme les recommandations du W3C.
Cela semble a priori de bon sens.
Si les Web Agency sont incapables de maitriser l’état de l’art, c’est qu’elles ne sont pas de bons prestataires.
Je suis confrontée régulièrement à des prestataires qui ne savent même pas développer un menu conforme aux recommandations du W3C ! Pourquoi ?
Bonjour,
en fait, 2 ans vous êtes « sympa » dans le commentaire. je dirai plutôt 5-6 ans puisque je me posais le problème déjà en 1998, et que cel a à peine évolué.
Vous l’avez dit vous-même : « Aujourd’hui, les sites avec frames ne posent plus vraiment de problèmes à partir du moment où le nécessaire a été fait pour leur référencement »
en clair si on ne contourne pas les frames avec nos petites techniques le référencement de sites avec frame se fait mal. quand il ne se fait pas involontairement dans un seul des frames …
c’est pour ça que je m’obstine à faore de spages mono-frames unique sans flash en accueil … et on pense que je suis un peu ringard … 😉
L’autre problème est le changement de fonctionnement dans préavis que peut avoir le moteur. Les techniques que pourraient dévlmeopper les éditeurs pourraient aussi être vaines.
Par contre le « canibalisme » inter-moteur a l’air de bien fonctionner … je serai tenté de dire « heureusement » d’un côté, et « malheursuement » de l’autre car cela ne pousse pas els moteurs à améliorer leurs techniques d’indexation …
sans oublier les liens commerciaux dont je pense qu’ils occupent 90% des efforts des moteurs ….
Bonjour,
Voici peut-être un élément de réponse…
JML
Je me joins à l’avis de Dominique, imaginez un moteur de recherche qui, lorsqu’il trouve une info pertinente pour l’internaute en fonction de sa recherche, envoie celui-ci sur la page d’accueil du site et pas sur la page contenant l’infos en question. C’est ce qui arrive avec les sites tout en Flash. Cela entraîne une baisse considérable de la pertinence des résultats des moteurs de recherche d’où peut-être cette réticence à intégrer le Flash ?
Pourquoi les moteurs n’indexent pas les liens en javascript et le flash ?
Entres autres, parce que le but du web c’est l’accessibilité (section 508, WAI,…) et que ces 2 technologies ne sont absolument pas accessibles aux navigateurs alternatifs (handicaps de tous genres voire navigateurs sur PDA ou téléphones).
En plus, le flash ne permet pas de bookmarquer une information : tout le contenu se trouve sur une seule et même page.
Donc pas d’accord sur le fait que les moteurs devraient suivre toutes les technologies pour les indexer.
(il y a une faute de frappe : « réféférencement » )
Salut Olivier,
Tu poses effectivement un excellent problème. Les moteurs n’ont à mon sens pas à imposer de règles d’édition sur le web. C’est effectivement à eux de s’adapter. Alors pourquoi ne le font-ils pas? Parce que proposer la recherche d’image et de vidéos est beaucoup plus vendeur que prendre en compte le Flash ou le JavaScript. Car il est clair que pour Google ou Yahoo! cela ne relève pas du problème technique.
L’occasion est trop bonne pour signaler que Nutch parse le Flash et le JavaScript (il extrait les URLs en clair, il n’interprête pas le JavaScript)… 😉
Bonjour Olivier,
je tiens à vous remercier pour ce point de vue, qui permet de rappeller que le but premier du référenceur n’est pas de polluer le web, mais bien de rendre accessible l’information pertinente présente sur les sites, les solutions de création de contenu n’étant là que pour pallier aux problèmes des robots.
Bonjour Olivier,
Votre point de vue me paraît tout à fait juste car il n’y a pas de raison pour un moteur de recherche, qui vise la pertinence et l’exhaustivité (même si ça peut paraître illusoire, ça reste un objectif), de ne pas s’adapter à l’évolution des technologies de conception des sites Web.
On peut toujours rétorqué que les webmasters ont tout intérêt à suivre les règles des moteurs si leur objectif est la plus grande audience. Et, dans la même optique d’être accessible aux différents handicapes et aux anciennes configurations. Mais le Web, comme d’autres domaines, évolue en permanence et il faut s’y adapter.
Il y a là, semble-t-il, une carte à jouer pour certains moteurs ou pour de nouveaux moteurs de recherche face aux leaders mais aussi face aux annuaires et autres moteurs collaboratifs.