La TF-IDF est un terme dont nous entendons parler depuis longtemps. Google l’utilise depuis longtemps pour récupérer des informations, en parallèle avec d’autres statistiques.
les moteurs de recherche, référencement naturel ou SEO (pour search engine optimization) ont également vu son potentiel. Ils ont commencé à utiliser cette mesure au lieu de la densité des mots-clés pour évaluer l’optimisation du contenu, car elle contribuait à atténuer l’influence des mots de fonction.
Cependant, je ne parlerai pas de cette fonction particulière de TF-IDF. De plus, John Mueller de Google a récemment souligné que cette stratégie d’optimisation est aujourd’hui inutile. Au lieu de cela, j’aimerais montrer comment TF-IDF aide à optimiser une page pour un sujet.
Qu’est-ce que TF-IDF (et quels moteurs de recherche l’utilise )?
TF-IDF ( term frequency-inverse document frequency ) est une mesure statistique généralement utilisée dans l’extraction d’informations et l’exploration de texte pour évaluer l’importance d’un terme pour un document particulier dans une collection de documents. Il a une longue histoire dans différents domaines de recherche, tels que la linguistique et l’architecture de l’information, en raison de sa capacité à faciliter l’analyse de grands ensembles de documents en peu de temps.
Les moteurs de recherche utilisent souvent différentes variantes de l’algorithme TF-IDF dans le cadre de leur mécanisme de classement. En attribuant aux documents un score de pertinence, ils parviennent à fournir des résultats de recherche « sans ordures » en millisecondes.
Par exemple, TF-IDF fait depuis longtemps partie du mécanisme de classement de Google. Google utilise TF-IDF pour déterminer les termes pertinents (ou non pertinents) sur le plan topique en analysant la fréquence d’apparition d’un terme sur une page ( term frequency – TF) et sa fréquence d’apparition sur une page moyenne, en fonction d’un ensemble de documents ( inverse document frequency – IDF).
Pour déterminer la pertinence d’une page donnée, Google analyse les pages de son index par rapport à un certain nombre de fonctionnalités spécifiques qu’il considère pertinentes pour la requête.
Étant donné que la plupart du contenu en ligne est du texte, ces fonctionnalités sont très probablement la présence ou l’absence de certains termes et expressions sur la page. Et non seulement leur présence, mais leur importance sur cette page par opposition à d’autres pages du Web.
C’est là que l’algorithme TF-IDF pourrait être utile. Il mesure la fréquence d’utilisation moyenne de ce terme sur l’ensemble du Web et constitue un point de repère pour empêcher les mots de donner une visibilité encore plus grande.
Voyons comment fonctionne la formule TF-IDF.
La mécanique de la TF-IDF
A présent, vous avez remarqué qu’il y a deux termes dans la notion. Alors que la fréquence des termes est plus ou moins claire, quelle est cette mystérieuse TF-IDF?
Le TF-IDF peut être calculé selon la formule suivante:
Ne vous inquiétez pas, vous n’avez pas à tout calculer vous-même; il existe des outils pour le faire pour vous. Cependant, avant d’utiliser un outil, vous devez comprendre que la valeur TF-IDF n’est pas simplement une forme astucieuse de densité de mots clés. Voici comment ça fonctionne:
Terme Fréquence (TF)
À première vue, la mesure est claire: à quelle fréquence un terme apparaît dans un document. C’est calculé selon la formule suivante :
Par exemple, si vous avez une page de 1 000 mots dans laquelle votre mot clé apparaît 10 fois, sa fréquence sera de 4,32 / 9,97 = 0,43 (si vous utilisez la base de journal 2 dans la formule).
Si votre mot clé apparaît deux fois plus souvent dans le même document, la fréquence de ses termes ne changera pas beaucoup, il sera de 5.32 / 9.97 = 0.53 (enregistrez à nouveau la base 2).
La fréquence des termes indique si vous utilisez un mot clé particulier trop souvent ou trop rarement. Cependant, en soi, c’est plutôt inutile car il faut mesurer l’importance du terme, pas seulement la fréquence de ses utilisations. Sinon, les mots de fonction régiraient la recherche. Pour l’éviter, nous avons besoin de la FIL.
Fréquence de document inverse (IDF)
Cette métrique aide à comprendre la valeur réelle d’un mot clé particulier. Il mesure le rapport entre le nombre total de documents d’un ensemble et le nombre de documents contenant ce mot clé. La formule va comme ceci:
Si le mot clé est un mot commun, il sera probablement utilisé dans une grande quantité de documents. En conséquence, sa valeur IDF sera minuscule, et si nous multiplions TF par elle, la valeur ne changera pas beaucoup. Et inversement, si le terme ne se trouve que dans quelques documents, sa valeur IDF sera beaucoup plus grande, ce qui donnera un score TDF-IDF plus élevé.
Vous voyez donc, contrairement à la densité de mots-clés qui reflète uniquement le degré de remplissage de votre texte avec un mot-clé particulier, TF-IDF se présente comme une métrique plus avancée et sophistiquée qui reflète l’importance d’un mot-clé donné pour une page donnée. Il réduit l’importance des mots et des phrases sans importance, tandis que les termes rares et significatifs prennent de l’ampleur.
Ayant cette pensée en tête, voyons ce que TF-IDF a à voir avec le référencement.
Comment utiliser les outils de TF-IDF pour le référencement
TF-IDF est une arme secrète dès lors que vous devez augmenter la pertinence de vos pages dans la recherche sémantique. Comment? Cela aide à aller au-delà des mots-clés exacts et du contenu pour s’assurer que cela correspond au sujet recherché.
Comme je l’ai déjà mentionné, il est fou d’essayer de calculer TF-IDF pour vos pages vous-même – utilisez des outils qui vous permettent de le faire sans effort. Avec la plupart des outils TF-IDF, vous pouvez analyser les meilleurs résultats de recherche pour vos propres mots-clés et voir quels termes et expressions sont utilisés par la plupart d’entre eux et quelle est la performance de vos pages.
En conséquence, vous aurez une liste de mots clés pertinents sur le plan topique qui vous permettront:
Optimisez votre contenu pour l’ensemble des sujets, pas pour des mots isolés.
Repérer les lacunes dans le contenu actuel;
Créez un nouveau contenu qui se classera plus haut et plus rapidement.
Si vous vous demandez comment incorporer TF-IDF dans votre stratégie de référencement, commencez par l’essayer avec les pages où TF-IDF vous apportera le plus d’avantages:
Contenu à fort potentiel qui ne peut pas sortir de la 2ème page: contenu que vous avez sur votre site pendant un certain temps, qui est bien optimisé et a acquis une bonne quantité d’autorité. L’optimisation TF-IDF est un excellent moyen de transférer un tel contenu vers la première page.
Contenu de haut niveau qui perd lentement de la place: l’algorithme de Google est en constante évolution, ce qui influence l’apparence quotidienne des SERP. TF-IDF aidera ces pages à rester pertinentes et à maintenir leur classement.
Pages de produits dont le classement n’est pas élevé: si les pages de votre produit ont du mal à se classer à des conditions financières, TF-IDF peut vous aider à identifier le contenu essentiel qui manque sur cette page.