« 15+ Conseils pour Optimiser votre Réferencement grace aux mots clés | Home | 12 Conseils pour trouver l’inspiration pour votre Blog »

nov 08 2008

Latent Semantic Indexing et le Web Sémantique (LSI)

Posté Par SeoMan a 22:06 Dans Google, Keyword, Semantique

Première visite ici? Suivez les articles du blog via RSS. Merci pour votre visite!

web semantique

Credits photo : Céline

J’ai assisté au NextMediaCamp ce Jeudi et j’ai particulièrement apprécié le sujet du web sémantique, même si je n’étais pas d’accord avec la manière de le traiter qui le rendait moins accessible à un public non initié .

Ce sujet du web sémantique a été présenté par un expert en la matière, Fabrice de RWW que vous pouvez suivre sur son twitter , cette discusion m’améne à aborder  aujourd’hui ce que j’avais nommé brièvement dans un post antérieur:  l’indexation sémantique élargie ou intelligente (LSI) ou l’analyse semantique latente selon wikipedia  :

Qu’est ce que le LSI :Latent Semantic Indexing

Le concept de LSI aurait été lancé dés 1988, ce concept consiste à convertir des informations issus de bases de données en langage humain, ca c’est le concept la théorie est autrement plus hardue voyons voir ce que ca peut donner ?

Selon Wikipedia, le LSI utilise une matrice (ou tableau 2D si vous préférez) qui contient les termes sur les lignes et les documents sur les colonnes.

Si on parcourt cette matrice (ou tableau) on a pour un terme donné le nombre d’apparition dans les documents et de l’autre coté pour un document le nombre d’apparition d’un mot donné .Avec un calcul savant de normalisation on obtient un nombre d’occurence d’un terme dans un texte, page ou paragraphe normalisé par la méthode dite du tf-idf qui consiste à diviser le chiffre par le nombre d’occurence général pour pouvoir comparer des textes, des pages et des paragraphes.

Le système d’indexation de base des moteurs de recherche se fonde sur les mots clés ou phrases clés qu’il parcourt sur votre texte et la pertinence qu’ils ont par rapport à la requête web de l’internaute, si le mot clé n’a aucune occurrence sur la page elle est jugée non pertinente sans aucune autre forme de procès.

Avec le LSI, une étape supplémentaire a été franchie sur les algorithmes des moteurs de recherche, avec un examen plus profond du contenu et la considération de la page dans son ensemble et pas mot par mot uniquement.Les moteurs font donc attention aux mots clés semantiquement proches du mot clés en question.Au délà des mots ou phrases clés recherchées, le moteur s’interesse aussi à celles et ceux qui sont proches sémantiquement.Ce mode de fonctionement est proche de l’humain et sa façon d’appréhender mentalement les pages web dans leurs ensembles.

le LSI plus pratiquement, permet de determiner le théme d’une page web, sans s’appuyer uniquement sur les mots clés.

Pour prendre un exemple : une page web sur la banque prendrait aussi en compte “crédit”  , “bourse” et “Compte courant”

Avantages et Inconvénients du LSI 

Inconvénients

Ceux qui ont optimisé leurs contenus avec un seul mot clé sans variation(du SEO Legacy en somme)  et sans réécrire leurs contenus avec des mots relatifs : l’utilisation massive du LSI leur feraient perdre des places sans aucun doute

Avantages

Si Google donne un poids plus important au LSI dans son algorithme,  tout ce qui est SEO Black Hat serait touché et sensiblement réduit.sur le simple principe des mots clés, la manipulation des moteurs de recherche était simple et permettait d’obtenir un pagerank intéressant avec le temps.le LSI rend cette tache plus difficile puisque la rédaction du contenu est plus humanisé et donc plus longue , tout ce que le SEO black hat dédaigne (automatisation et industrialisation  ;) ) .

Ceux qui ont rédigé du contenu naturel (journalistique j’allais dire) pourraient profiter de l’accroissement de l’utilisation du LSI.

Comment prendre en compte le LSI pour son contenu :

  • Du contenu de qualité
  • des mots clés et des mots clés alternatifs
  • Utilisation des Alts (images, liens,etc..) non basés sur un mot clé unique mais surdu contenu pertinent avec le reste de la page web
  • Utilisation de variations de mots clés et de mots clés alternatifs (pluriels, singuliers, temps différents,etc…)
  • Mots clés relatifs au théme de la page

Exemple :Pour avoir une idée sur le fonctionnement des nouveaux moteurs sémantiques

En prenant en théme les récentes élections US remportés par qui vous savez

j’ai tenté de posé la question pour savoir en anglais qui a gagné les élections US “who wins the us elections”

Chez Google qui à priori n’utilise pas de sémantique pure mais du LSI , j’ai un résultat très décevant :

semantique web

Chez Yahoo qui sait indexer les microformats on a le meilleur résultat sur le premier résultat du SERP et dès le snippet

semantique web moteur de recherche yahoo

Chez ZEMANTA qui fait du semantique  on a un bon résultat même si ZEMANTA fonctionne mieux avec du texte complet

semantique web moteur de recherche zemanta

Chez PowerSET qui s’appuie uniquement sur Wikipedia US, le résultat est catastrophique mais il est compréhensible vu la fraicheur de la requete nul doute que le même test dans 3 mois sera plus efficient.

semantique web moteur de recherche powerset

Sur Hakia un moteur sémantique en béta, le résultat est aussi excellent

semantique web moteur de recherche hakia

En conclusion sur le LSI

Le LSI Google bien qu’il est encore éloigné de la sémantique pure que l’on peut voir sur des outils comme Zemanta , OpenCalais ou encore PowerSet (basé sur wikipedia uniquement) est une volonté certaine de Google de filtrer les contenus par le haut (en terme de qualité), et pour une fois le coté humain est mis en avant.

Si vous souhaitez prendre un peu d’avance dans le web sémantique (The next Search Web Big Thing), OpenCalais permet gratuitement de se familiariser et d’utiliser ce concept avec des Api mis à disposition gratuitement par reuters .

Pour suivre la liste de posts n’hésitez pas à vous abonnez aux flux RSS flux rss seo adsense referencement ou les recevoir directement par Mail 

ou vous pouvez me suivre sur Twitter follow twitter

Related Posts Plugin for WordPress, Blogger...


12 Commentaires to “Latent Semantic Indexing et le Web Sémantique (LSI)”

  1. Sakacocoon 08 nov 2008 at 22:20

    Yeah ! Super article intéressant, merci bien !

    Dernier Post de Sakacoco.Hadopi…ça va couper !

  2. Alexon 08 nov 2008 at 22:38

    Bon article, complet, même si la première partie reste totalement obscure à mes yeux :D L’exemple est concret ;) Bon, bah tu vas finir par me convaincre d’ajouter des alt=, title= etc :/

  3. Arattaon 08 nov 2008 at 22:39

    Compliqué cet article, j’ai froncé les sourcils mainte et mainte fois pour suivre! Mais inéressant dès qu’on a saisi le concept!
    Merci pour cette explication!

  4. SeoManon 08 nov 2008 at 22:50
    @Alex en fait il faut essayer de s’y mettre parce que c’est vraiment le futur du web et les premiers arrivés seront les mieux servis comme d’habitude ;);) même en affiliation ;);)

    @aratta désolé de ne pas avoir pu être plus clair mais en fait l’exemple peut donner une idée sur la pertinence de la sémantique dans la recherche web…beaucoup de personnes utilisent des questions directes comme si ils parlaient à un ami ou une personne humaine…et on voit les résultats sur Google par exemple à coté de la plaque ….

  5. SeoManon 08 nov 2008 at 22:52
    @sakacoco merci mais je m’aperçois que j’écris comme un gamin de maternelle sur les copies d’écran ;) ….
  6. Arattaon 08 nov 2008 at 22:59

    @Seoman: tu as raison! C’est pour ça que j’ai trouvé ton article intéressant et que je l’ai lu jusqu’au bout, malgré mes difficultés ;)

  7. SeoManon 08 nov 2008 at 23:04
    @aratta you are willkommen ;)
  8. Stéphane Laberton 09 nov 2008 at 11:06

    A titre indicatif, pour ceux qui veulent se lancer dans l’optimisation LSI de leur site web :

    http://www.html4seo.com propose une solution efficace d’optimisation de pages web à l’aide d’aggrégat LSI (fonction non documentée, mais il suffit de parcourir le tagcloud expert avec la souris pour voir apparaître des petites icônes).

  9. SupaPandaon 09 nov 2008 at 23:14

    Extremement interessant!!!

    Bon travail d’analyse cher SEOman! :)

  10. SupaPandaon 09 nov 2008 at 23:17

    Edit:
    J’utilise pour mon travail des logiciels dits de Crawling Sémantique comme Arisem ou AMI software. La sémantique est en marche même si le chemin est encore long!

  11. [...] Hicham à participé jeudi dernier au NextMediaCamp sur le Web Sémantique et nous explique les tenant et les aboutissants du Latent Semantic Indexing by Bababillgates [...]

  12. [...] résumé du post, cela vous permettra même de vous positionner sur les Serps grâce au LSI [...]