Pourquoi et comment exploiter vos données textuelles grâce au NLP ?

9 septembre 2022 | 13 min de lecture

Les données textuelles sont omniprésentes en entreprise. Stockées dans des documents (Word, PowerPoint, PDF, etc.), dans les boîtes mail ou encore dans les historiques de navigateurs, elles stockent notre savoir et l’historique de nos actions digitales.

L’exploitation des données d’entreprise est l’un des piliers de la performance des entreprises. Représentant 80% des données d’entreprise, les données textuelles concentrent la majorité de l’information ce qui rend leur valorisation indispensable. Depuis quelques années, l’Intelligence Artificielle a révolutionné l’analyse de texte notamment grâce au développement de méthodes de NLP très performantes. Automatiser des processus, rechercher des informations de manière simple et flexible sur diverses applications, ranger des documents automatiquement … les secteurs d’application de l’analyse de texte sont infinis.

Pourquoi exploiter vos données textuelles avec le NLP?

Exploiter vos données textuelles va vous permettre d’organiser vos données, de les explorer et de transformer vos processus :

Organiser vos données textuelles : la plupart des entreprises ont déjà mis en place des plateformes afin de stocker les données textuelles. Souvent, les collaborateurs sont perdus face à la diversité des sources de données et aux différences de structure et d’organisation de celles-ci. Pour mettre de l’ordre dans vos knowledge bases, il existe des algorithmes capables de regrouper des documents similaires et de les classifier. Apporter une structure à vos données permet à vos collaborateurs de comprendre leur typologie et de se les approprier.

Explorer vos données plus efficacement : il y a fort à parier qu’une grande partie du savoir de votre entreprise se concentre dans des fichiers textuels stockés dans des entrepôts de données. Permettre à l’ensemble des collaborateurs d’explorer rapidement vos données textuelles assure un flux continue de la connaissance et donc la montée en compétence de vos équipes. Mettre en place un moteur de recherche intelligent connecté à toutes vos sources de données textuelles permet en outre de réduire les temps de recherche et de limiter le temps passé à comprendre toutes les plateformes de stockage différentes.

Transformer vos processus : nombre de vos processus dépendent déjà des données textuelles (systèmes de ticketing, mail de support, classification de documents, etc.). Ces processus parfois redondants nécessitent une intervention humaine. Les Automatiser grâce au NLP permet aux équipes de se concentrer sur des tâches à plus grande valeur ajoutées. Le gain de temps engendré est une source de profit pour les entreprises.

Comment exploiter vos données textuelles grâce au NLP ?

La première étape et la plus importante : entourez-vous des bons interlocuteurs. Travailler avec des experts du NLP vous fera gagner un temps précieux car la recherche et développement en analyse de texte est très coûteuse. Ce point sera développé davantage dans la suite de l’article.

Une fois votre équipe d’idéation formée, vous devrez identifier des cas d’usages. Pour cela, le mieux est de faire le tour des équipes que vous souhaitez soutenir et de leur demander de formuler les points de blocage qu’il rencontre au quotidien (en lien avec la data). Dès cette étape, il est important de faire participer les expert NLP qui sauront rapidement identifier les projets data liée aux blocages rencontrés. Par exemple, un moteur de recherche connecté à une base de ticketing et à une boîte mail de support est une réponse adaptée au besoin d’un collaborateur qui se plaint de temps de réponse trop long lors d’incidents informatiques.

Lorsque votre liste de cas d’usage est suffisamment longue, prenez le temps de remplir la matrice apport / complexité. Pour commencer, privilégiez les projets à fort apport pour les collaborateurs et à complexité faible. En faisant cela, vous permettez à vos équipes de s’acculturer tranquillement aux projets de Data Science et légitimerez les projets suivants. Pour estimer la complexité d’un projet, la seule présence des experts NLP n’est pas suffisante. Pensez à inviter les architectes et les responsables de la sécurité informatique si cela est pertinent.

Données textuelles, quelles sont les limites des méthodes de NLP ?

Malgré ce que l’on peut lire sur internet, NON on ne peut pas tout faire avec l’analyse de texte. Certaines tâches sont encore très expérimentales tandis que d’autres sont résolues. Avant de vous lancer dans l’analyse de vos données textuelles, assurez-vous que l’un de vos interlocuteurs a conscience de ces limites et saura vous aider à former des projets réalistes.

Deux familles de modèles sont principalement utilisées dans les projets d’analyse de textes rencontrés en entreprise :

Les modèles statistiques basés sur la fréquence des mots ou des caractères.
Les modèles sémantiques qui exploitent le sens du texte (comme par exemple BERT).

Les modèles statistiques

Les modèles statistiques exploitent principalement la fréquence des mots. Prenons par exemple une tâche de classification de textes : une entreprise souhaite séparer ses documents entre les confidentiels et les non confidentiels. Afin de repérer les documents confidentiels, les algorithmes statistiques se basent principalement sur des mot clés tels que confidentiel, restreint ou encore interne. Afin de simplifier la détection de ces mot clés il est possible de fournir à l’algorithme un ensemble de documents confidentiels. L’algorithme peut alors déterminer par lui-même les termes spécifiques aux documents confidentiels. Une fois ces mots détectés, ils sont repérés dans de nouveau fichiers afin de les labeliser comme étant confidentiels. Les algorithmes statistiques sont optimisés pour le calcul. Ils restent très performants même sur des dizaines de millions de documents.

Les méthodes statistiques ne sont pas simplement des méthodes de matching de mots. Ils permettent également d’associer des poids au mots. Ces poids sont d’autant plus élevés que les mots sont importants pour détecter les documents confidentiels.

L’une des limitations de ces méthodes est qu’un document ne contenant pas les mots de la liste détectée ne peut pas être labélisée confidentiel. L’algorithme n’est donc pas capable de comprendre le sens des textes qu’il traite. De plus, ce genre d’algorithme analyse uniquement la présence de mots dans un texte et ne prête pas attention à l’ordre des mots dans le texte.

Les modèles sémantiques (Transformer)

L’autre catégorie d’algorithmes, les algorithmes sémantiques, est spécialisée dans la compréhension du sens des phrases. Ces modèles sont généralement basés sur l’architecture de réseau de neurones Transformer développée par Vaswani et al. (Google) en 2017. Cette architecture est reprise dans de nombreux modèles état de l’art. Le plus connu d’entre eux est le modèle BERT développé par Devlin et al. (Google) en 2018. De nombreux modèles viennent par la suite s’ajouter à la liste des réseaux de neurones basés sur l’architecture Transformer comme RoBERTa publié par Facebook, AlBERT, FlauBERT, etc. Ces modèles très puissants sont utilisés pour comprendre la sémantique des textes. Typiquement dans notre exemple de détection de documents confidentiels, il est possible de rapprocher deux documents confidentiels même s’ils ne partagent aucun mot en communs.

Les modèles basés sur l’architecture Transformer présentent néanmoins des limites : ce sont des modèles très volumineux comportant des centaines de millions de paramètres. En conséquence ils sont beaucoup plus lents que les modèles statistiques. Pour donner un ordre de grandeur : un algorithme statistique pourra traiter 10 000 textes par seconde tandis qu’un réseau de neurones Transformer en traitera plutôt une dizaine.

En pratique, il n’est pas toujours plus avantageux de choisir une catégorie d’algorithmes plutôt qu’un autre. Bien que les néophytes soient souvent tenter de s’orienter rapidement vers les modèles Transformer qui performent très bien pour des tâches de classification par exemple, il faut pousser l’analyse plus loin et réfléchir au trade-off qualité / rapidité. Les méthodes hybrides sont souvent adaptées, permettant de bénéficier à la fois de la rapidité des méthodes statistiques et de la pertinence des résultats obtenus par les méthodes sémantiques. Encore une fois, faire appel à un spécialiste reste la meilleure manière de vous assurer que la solution adoptée est la plus adaptée à votre cas d’usage.

Le piège de l’open source

Bien qu’attrayante pour les entreprises, l’open source est souvent une fausse bonne idée. En tant que consultants en intelligence artificielle, les entreprises nous posent souvent la question : pourquoi payer un cabinet de conseil pour installer des algorithmes open source dans mon environnement IT ? L’idée reçue qu’ont beaucoup d’entreprises est que l’utilisation de l’open source pour créer et adapter des produits répondant à leurs besoins est simple et peu coûteuse. Dans le cas de l’analyse de texte, de nombreux modèles existent en ligne. La questions est donc : Quel est l’apport d’un cabinet de conseil lors de la création d’une solution pour une entreprise ?

Conservons l’exemple de la classification de documents confidentiels / non confidentiels. L’objectif est de classifier en temps réel des documents stockés dans un data lake. Pour cela, nous utilisons un modèle de type BERT. Ces modèles sont pré-entraînés sur des données open source : par exemple l’un des plus volumineux jeu de données est extrait automatiquement de Wikipedia et contient plusieurs dizaines de giga de textes. Cette base de données contient des textes contenant du vocabulaire courant. En conséquence, le modèle pré-entraîné n’est pas adapté au contexte et au vocabulaire de l’entreprise.

Testons le modèle BERT pour classer ces donnée textuelles :

Afin d’adapter le modèle BERT au contexte de l’entreprise, il est d’abord nécessaire de créer une base de documents confidentiels et non confidentiels. La création de cette base est longue et fastidieuse pour une personne non aguerrie :

Il faut d’abord extraire les textes des documents à classifier et les nettoyer, on parle de data preprocessing.
Il faut ensuite labéliser les données, c’est-à-dire indiquer pour un certain nombre de documents ceux qui sont confidentiels et ceux qui ne le sont pas. En Data Science, il est possible d’utiliser des outils de labélisation efficaces pour créer des bases de données d’entraînement. Certains algorithmes permettent également d’augmenter artificiellement la taille des bases de données.
Une fois la base d’entraînement créée, il faut entraîner le modèle sur celle-ci. Etant donné que le modèle avait déjà été pré-entraîné sur le corpus Wikipedia, on appelle son réentraînement sur les données d’entreprise « fine tuning ». Le « fine tuning » d’un modèle BERT demande la calibration d’un certain nombre de paramètres (learning rate, decay rate, number of epochs, etc.). Une bonne connaissance des interactions entre ces paramètres est nécessaire pour éviter les tests à rallonge : fine-tuner un algorithme de type BERT sur une base de quelques milliers de textes peut prendre plusieurs heures. Par conséquent, tester différentes configurations de paramètres peut prendre des jours voire des semaines.

Même dans notre cas simple dans lequel nous utilisons un seul modèle de classification, nous voyons que le temps de développement peut être très long. Dans des projets plus complexes (comme c’est le cas généralement) il faut ajouter d’autres algorithmes et les assembler. Bien qu’open source, les technologies d’analyse de texte demande beaucoup d’expérience afin d’être maîtrisées et déployées dans le cadre de projet data.

Conclusion

Il ne fait aucun doute que votre environnement de travail pourrait être optimisé grâce à l’analyse de texte. Celle-ci vous permet d’économiser en automatisant des processus et en faisant gagner du temps à vos équipes. De plus, vos collaborateurs réduisent le temps alloué aux tâches redondantes et se concentrent sur des tâches plus stimulantes, ce qui participe à la QVT de votre entreprise. Pour terminer, il faut rappeler que le métier de Data Scientist ne s’improvise pas ! Pour économiser de l’argent sur votre transition IA, n’oubliez pas de vous entourer de consultants en Data Science ayant de l’expérience dans le domaine. Vous éviterez de vous retrouver dans une impasse au bout de plusieurs mois d’effort !

Articlé rédigé par Clément Gueneau – Supervisor Pôle NLP

Sources :

VASWANI, Ashish, SHAZEER, Noam, PARMAR, Niki, et al. Attention is all you need. Advances in neural information processing systems, 2017, vol. 30.
DEVLIN, Jacob, CHANG, Ming-Wei, LEE, Kenton, et al. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
YANG, Zhilin, DAI, Zihang, YANG, Yiming, et al. Xlnet: Generalized autoregressive pretraining for language understanding. Advances in neural information processing systems, 2019, vol. 32.
PENNINGTON, Jeffrey, SOCHER, Richard, et MANNING, Christopher D. Glove: Global vectors for word representation. In : Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014. p. 1532-1543.
AIZAWA, Akiko. An information-theoretic perspective of tf–idf measures. Information Processing & Management, 2003, vol. 39, no 1, p. 45-65.
ROBERTSON, Stephen et ZARAGOZA, Hugo. The probabilistic relevance framework: BM25 and beyond. Now Publishers Inc, 2009.
ADHIKARI, Ashutosh, RAM, Achyudh, TANG, Raphael, et al. Docbert: Bert for document classification. arXiv preprint arXiv:1904.08398, 2019.

Dans cette catégorie

HeadMind Partners est au cœur de la convergence entre la Cybersécurité & l’Intelligence Artificielle

HeadMind Partners déploie l’IA dans les entreprises

DEEPFAKE : Le nouveau casse-tête des méthodes d’authentification

Intelligence Artificielle & Analyse de tendances

Analyse textuelle AI & Blockchain