Trois étapes pour commencer votre analyse
Déposez un fichier CSV, Excel, XML ou PDF sur la page d'import. Choisissez les colonnes contenant le texte ou les pages à analyser.
Retrouvez vos corpus dans la bibliothèque. Ouvrez-les pour parcourir les phrases, le lexique et les analyses.
Concordances, cooccurrences, n-grammes, motifs, mots-clés, entités nommées... Tout est accessible depuis la page du document.
Types de fichiers supportes et processus d'import
Fichiers texte avec séparateur virgule ou point-virgule. Prévisualisation des colonnes avec exemples de contenu. Choisissez une ou plusieurs colonnes de texte à analyser.
Fichiers Excel. Meme interface de selection de colonnes que pour les CSV. Toutes les feuilles sont lues.
Export Frantext ou XML structure. Les colonnes sont extraites automatiquement depuis les balises. Compatible avec les exports Frantext standard.
Documents PDF. Navigateur de pages intégré avec vue 2 pages (1 page sur mobile). Sélectionnez la page de début, la page de fin ou un nombre maximum de phrases.
Processus d'import
L'import se fait en deux étapes. D'abord, déposez votre fichier : la plateforme détecte le type et affiche les options de configuration (colonnes pour les fichiers tabulaires, pages pour les PDF). Ensuite, lancez le traitement : le moteur NLP analyse chaque phrase avec deux modèles spécialisés (fr_dep_news_trf pour la grammaire, fr_core_news_md pour les entités nommées). Le traitement se fait en arrière-plan, vous pouvez suivre sa progression en temps réel.
Si vous fermez la page pendant le traitement, le document apparaît dans la bibliothèque avec un bouton "Reprendre" pour rouvrir la configuration.
Options PDF
| Option | Description |
|---|---|
| Page de début | Première page à analyser (obligatoire) |
| Page de fin | Dernière page à analyser. Si définie, le nombre max de phrases est ignore |
| Max phrases | Nombre maximum de phrases à extraire (défaut : 1 000, max : 20 000). Ignore si la page de fin est définie |
Annotations linguistiques generees
| Option | Description |
|---|---|
| Lemme | Forme canonique du mot (ex: "mangeait" -> "manger") |
| POS | Categorie grammaticale (17 tags Universal Dependencies : NOUN, VERB, ADJ, ADV, DET, etc.) |
| Dépendance | Relation syntaxique avec le mot tête (nsubj, obj, det, ROOT, etc.) |
| Morphologie | Traits morphologiques (Genre, Nombre, Temps, Mode, Personne, etc.) |
| Entite | Type d'entite nommee : PER (personne), LOC (lieu), ORG (organisation), MISC (divers) |
Parcourez et explorez votre texte
Trouvez exactement ce que vous cherchez dans votre corpus
Outils d'analyse linguistique avances
Classez et annotez les occurrences dans le concordancier
Enregistrez et retrouvez vos recherches
Affinez vos résultats avec les filtres et le tri
Téléchargez vos données en un clic
Chaque page propose un bouton d'export CSV (icone de telechargement). Les fichiers sont encodes en UTF-8 avec BOM pour une ouverture directe dans Excel sans probleme d'accents. Les en-têtes sont traduits selon la langue de l'interface (français ou anglais). Les filtres actifs (POS, morphologie, metadonnées) sont respectes dans tous les exports.
Liste complète des phrases avec leur numéro. Colonnes : #, Phrase
Tous les lemmes avec POS, fréquence, fréquence par million et forme la plus courante. Colonnes : Lemme, POS, Fréquence, Par million, Exemple
Chaque occurrence avec contexte. Colonnes : #, Contexte gauche, Mot, Contexte droit, POS + colonnes d'annotation a leur position
Toutes les entités détectees. Colonnes : Entite, Type, Fréquence, Par million
Phrases correspondantes. Colonnes : Contexte gauche, Motif, Contexte droit, Phrase, Distance
Mots spécifiques au corpus. Colonnes : Lemme, POS, Fréquence corpus, Par million corpus, Par million référence, Spécificité (G2), Taille d'effet, Direction
Navigation, langues et affichage
Conseils pour tirer le meilleur parti de la plateforme