Comment la génération du langage naturel modifie le jeu SEO

nous avons observé que plus de 25 milliards de pages nous trouvons chaque jour sont du spam. (Si chacune de ces pages était une page d'un livre, cela représenterait plus de 20 millions d'exemplaires de « War & Peace » chaque jour ! ) PUBLICITÉ POURSUIVRE LA LECTURE CI-DESSOUSNos efforts ont permis de garantir que plus de 99% des visites de nos résultats aboutissent à Expériences sans spam Au cours des dernières années, nous avons observé une augmentation des sites de spam avec du contenu généré automatiquement et gratté avec des comportements qui ennuient ou nuisent aux chercheurs, tels que les faux boutons, les publicités écrasantes, les redirections suspectes et les logiciels malveillants. Ces sites Web sont souvent trompeurs et n'offrent aucune valeur réelle aux gens. En 2019, nous avons réussi à réduire l'impact de ce type de spam sur les utilisateurs de recherche de plus de 60% par rapport à 2018. « Alors que Google signale un nombre impressionnant de pages de spam par jour, ils signalent un taux de réussite impressionnant de 99% dans la suppression Plus important encore, ils ont fait des progrès incroyables dans la suppression du contenu indésirable généré par la machine.Dans cette colonne, je vais expliquer avec du code comment un ordinateur est capable de générer du contenu en utilisant les dernières avancées de NLG. Je vais passer en revue la théorie et quelques lignes directrices pour garder votre contenu utile.Cela vous aidera à éviter de vous faire attraper par tous les spams Web que Google et Bing travaillent sans relâche pour se débarrasser.

Pages de contenu minces

Dans mon article sur la génération de titres et de méta-descriptions, j'ai partagé une technique efficace qui repose sur la synthèse du contenu de la page pour produire des méta-étiquettes vous pouvez voir que cela fonctionne vraiment bien et peut même produire des textes nouveaux de haute qualité. Mais que faire si les pages ne contiennent aucun contenu à résumer ? La technique échoue. Permettez-moi de vous dire une astuce très intelligente pour résoudre ce problème.Si ces pages ont des backlinks de qualité, vous pouvez utiliser le texte d'ancrage et le texte entourant le backlink comme texte à résumer.Attendez ! Mais pourquoi ? Permettez-moi de revenir jusqu'en 1998, à la fondation du moteur de recherche Google. Dans l'article décrivant leur nouveau moteur de recherche, Page et Brin ont partagé un aperçu très intéressant dans la section 2.2. « La plupart des moteurs de recherche associent le texte d'un lien avec la page sur laquelle se trouve le lien. De plus, nous l'associons à la page vers laquelle pointe le lien. Cela présente plusieurs avantages. Première, les ancres fournissent souvent des descriptions plus précises des pages Web que les pages elles-mêmes. Deuxièmement, des ancres peuvent exister pour des documents qui ne peuvent pas être indexés par un moteur de recherche textuel, tels que des images, des programmes et des bases de données. Cela permet de renvoyer des pages Web qui n'ont pas été réellement explorées. « Voici le plan technique:

Comment la génération du langage naturel modifie le jeu SEO

  1. Nous obtiendrons des backlinks et des textes d'ancrage correspondants en utilisant les nouveaux outils Bing pour les webmasters
  2. Nous gratterons le texte environnant des backlinks de la plus haute qualité
  3. Nous allons créer des résumés et du contenu long en utilisant le texte gratté

Rapport sur les backlinks de Bing Webmaster Tools

Une des fonctionnalités que j'aime dans le nouvel outil de backlinks de BWT, c'est qu'il peut fournir des liens pointant non seulement vers votre propre site, mais aussi vers d'autres sites. Je m'attends à ce que cela devienne une alternative gratuite populaire aux outils payants. Fichier CSV avec la grande liste de liens et d'ancres, mais lorsque j'ai essayé de le charger à l'aide de pandas Python et que j'ai trouvé un certain nombre de problèmes de formatage. Les textes d'ancrage aléatoires peuvent inclure des virgules et provoquer des problèmes avec un fichier délimité par des virgules. Je les ai résolus en ouvrant le fichier dans Excel et en l'enregistrant au format Excel.

Gratter le texte environnant avec Python

Comme vous pouvez le voir sur ma capture d'écran ci-dessus, la plupart des textes d'ancrage sont assez courts.Nous pouvons gratter les pages pour obtenir le paragraphe qui les contient.Tout d'abord, chargeons le rapport que nous avons exporté de BWT.import pandas en tant que pd

df = pd.read_excel (« www.domain.com_ReferringPages_6_7_2020.xlsx »)

df.head () J'ai examiné l'URL cible par le nombre de liens entrants en utilisant.df.groupby (« Target Url »). count (). tail () J'ai tiré les backlinks d'une des pages pour évaluer l'idée en utilisant ceci code.ADVERTISEMENTCONTINUE READING BELOWbacklinks = set (df[df[« Target Url »] == « https://domain.com/example-page »][« Source Url »]) Voyons maintenant comment nous pouvons utiliser une URL cible et un backlink pour extraire le texte d'ancrage approprié qui inclut l'ancre.

Récupération de texte à partir de backlinks

Tout d'abord, installons request-html. ! Pip install request-html

à partir de requests_html importer HTMLSession

session = HTMLSession () Afin de garder le code simple, je vais produire manuellement un sélecteur CSS pour saisir le texte entourant le lien.Il n'est pas difficile de le calculer étant donné le lien et l'ancrage sur la page en utilisant JavaScript ou Python Peut-être que c'est une bonne idée d'essayer comme devoir.Ouvrez un exemple de page de backlink et en utilisant les outils de développement Chrome, vous pouvez cliquer avec le bouton droit sur le paragraphe qui vous intéresse et copier un sélecteur CSS.C'est le sélecteur que j'ai utilisé. avec session.get (url) comme r:

selector = « # entry-78782> div.asset-content.entry-content> div> p: nth-child (5) »

paragraph = r.html.find (sélecteur, first = True)

text = paragraph.text C'est le texte qui est revenu. J'ai mis en gras le texte de notre exemple de texte d'ancrage. PUBLICITÉ POURSUIVRE LA LECTURE CI-DESSOUS Nous savons que la rétention des enseignants améliore les résultats des élèves et, inversement, que le roulement des enseignants peut nuire au rendement des élèves. Environ 16% des éducateurs partent chaque année, et nous savons que de nombreux enseignants, comme moi, partent dans les cinq premières années. Les enseignants rapportent que les principales raisons pour lesquelles ils quittent sont le manque d'autonomie et de voix, ainsi que les questions de culture et, en particulier, de discipline. Qui plus est, le chiffre d’affaires est coûteux, car il faut plus de 2,2 milliards de dollars de district par an. Passons maintenant à la partie amusante !

Génération de texte neuronal

Nous allons utiliser le même code de résumé que nous avons utilisé pour générer des titres et des méta descriptions dans mon article précédent, mais avec une torsion.Au lieu de spécifier une longueur de résumé souhaitable plus courte que le paragraphe d'origine, nous allons spécifier une longueur plus longue. Ça marchera ? Voyons voir ! ! pip installer des transformateurs

du transformateur importation pipeline

résumé = pipeline (« résumé »)

Généré_text = résumé (texte, min_length = 150, max_length = 250)

print (generated_text) J'obtiens cet avertissement intéressant.Votre longueur_max est définie sur 250, mais votre longueur_entrée n'est que de 99Fonctionnement de la génération de texte neuronal

Avez-vous passé des tests d'aptitude ou de QI où l'on vous présente une séquence de nombres et vous devez deviner le suivant ? En gros, c'est ce que notre modèle a fait ci-dessus lorsque nous avons fourni un texte initial et demandé à nos modèles de prédire ce qui allait suivre devinez le numéro suivant et reprenez la nouvelle séquence qui comprend le nombre deviné et répétez le même processus jusqu'à ce qu'il atteigne la limite de longueur que nous avons spécifiée. ne sont pas seulement des nombres réguliers, mais des vecteurs et plus spécifiquement (dans le cas de BERT et BART) des incorporations de mots bidirectionnelles.J'ai expliqué les vecteurs et l'incorporation de mots bidirectionnels en utilisant une analogie GPS dans mes articles d'apprentissage profond, partie 1 et partie 2. Assurez-vous de les vérifier.En résumé, les incorporations codent des informations riches sur les mots qu'ils représentent, ce qui augmente considérablement la qualité des prédictions.Voici donc un exemple de la façon dont cela fonctionne. texte: « Le meilleur langage de programmation pour les SEO effectuant des tâches répétitives est ____ et pour les SEO effectuant des audits frontaux est ____ », nous demandons au modèle de compléter la phrase. La première étape consiste à convertir les mots en nombres / plongements, où chacun l'incorporation identifie le mot dans son contexte.POUR EN SAVOIR PLUS LIRE CI-DESSOUS, transformez-le en un casse-tête que l'ordinateur peut résoudre pour comprendre les nombres / intégrations qui peuvent remplir les blancs en fonction du contexte.L'algorithme qui peut résoudre ces types de casse-tête s'appelle une langue modèle.Un modèle de langue est similaire aux règles grammaticales en anglais ou dans toute autre langue.Par exemple, si le texte est une question, il doit se terminer par un point d'interrogation.La différence est que tous les mots et symboles sont représentés par des nombres / Maintenant, là où cela devient intéressant, c'est que dans l'apprentissage en profondeur (ce que nous utilisons ici), vous n'avez pas besoin de créer manuellement une grande liste de règles de grammaire.Le modèle apprend les règles de manière empirique grâce à des essais et des erreurs efficaces. se fait au cours de ce qu'on appelle une phase de pré-formation où les modèles sont formés sur un corpus massif de données pendant plusieurs jours et en utilisant un matériel très puissant.La meilleure partie pour nous est que les résultats de ces efforts sont rendus gratuits pour quiconque les utilise BERT est un exemple de modèle de langage, tout comme GPT-2 et BART.

Comment l’utiliser pour de bon

Comme je l'ai mentionné ci-dessus, ce truc est vraiment puissant et pourrait être utilisé pour produire du contenu inutile à grande échelle à un coût relativement bas.Personnellement, je ne voudrais pas perdre de temps à patauger dans les ordures pendant que je recherche.Au fil du temps, j'ai réalisé que dans Pour que le contenu s'exécute dans la recherche, il doit:

  • Sois utile
  • Satisfaire un réel besoin

Si ce n'est pas le cas, qu'il s'agisse d'un ordinateur ou d'un produit humain, il n'obtiendra aucun engagement ou validation de la part des utilisateurs finaux.Les chances de classement et de performance sont vraiment faibles.C'est pourquoi je préfère des techniques telles que le résumé et traduction ou question / réponse où vous avez un plus grand contrôle sur la génération. PUBLICITÉ POURSUIVRE LA LECTURE CI-DESSOUS Ils peuvent vous aider à vous assurer que vous ajoutez une nouvelle valeur.

Projets communautaires et ressources d'apprentissageCrawler
  • Testeur robots.txt
  • Vérificateur SERP
  • Convertisseur Sitemap en DataFrame
  • Convertisseur URL vers DataFrame et plus more https://t.co 🐍🐍&#x1f40dCrédits d'imageToutes les captures d'écran prises par l'auteur, juin 2020

    Tags: , ,