Documentation

Guide complet de la plateforme. Voir aussi la FAQ.

Démarrage rapide

Trois étapes pour commencer votre analyse

1

Importer

Déposez un fichier CSV, Excel, XML ou PDF sur la page d'import. Choisissez les colonnes contenant le texte ou les pages à analyser.

2

Explorer

Retrouvez vos corpus dans la bibliothèque. Ouvrez-les pour parcourir les phrases, le lexique et les analyses.

3

Analyser

Concordances, cooccurrences, n-grammes, motifs, mots-clés, entités nommées... Tout est accessible depuis la page du document.

Formats et import

Types de fichiers supportes et processus d'import

CSV

Fichiers texte avec séparateur virgule ou point-virgule. Prévisualisation des colonnes avec exemples de contenu. Choisissez une ou plusieurs colonnes de texte à analyser.

XLSX / XLS

Fichiers Excel. Meme interface de selection de colonnes que pour les CSV. Toutes les feuilles sont lues.

XML

Export Frantext ou XML structure. Les colonnes sont extraites automatiquement depuis les balises. Compatible avec les exports Frantext standard.

PDF

Documents PDF. Navigateur de pages intégré avec vue 2 pages (1 page sur mobile). Sélectionnez la page de début, la page de fin ou un nombre maximum de phrases.

Processus d'import

L'import se fait en deux étapes. D'abord, déposez votre fichier : la plateforme détecte le type et affiche les options de configuration (colonnes pour les fichiers tabulaires, pages pour les PDF). Ensuite, lancez le traitement : le moteur NLP analyse chaque phrase avec deux modèles spécialisés (fr_dep_news_trf pour la grammaire, fr_core_news_md pour les entités nommées). Le traitement se fait en arrière-plan, vous pouvez suivre sa progression en temps réel.

Si vous fermez la page pendant le traitement, le document apparaît dans la bibliothèque avec un bouton "Reprendre" pour rouvrir la configuration.

Options PDF

OptionDescription
Page de débutPremière page à analyser (obligatoire)
Page de finDernière page à analyser. Si définie, le nombre max de phrases est ignore
Max phrasesNombre maximum de phrases à extraire (défaut : 1 000, max : 20 000). Ignore si la page de fin est définie

Annotations linguistiques generees

OptionDescription
LemmeForme canonique du mot (ex: "mangeait" -> "manger")
POSCategorie grammaticale (17 tags Universal Dependencies : NOUN, VERB, ADJ, ADV, DET, etc.)
DépendanceRelation syntaxique avec le mot tête (nsubj, obj, det, ROOT, etc.)
MorphologieTraits morphologiques (Genre, Nombre, Temps, Mode, Personne, etc.)
EntiteType d'entite nommee : PER (personne), LOC (lieu), ORG (organisation), MISC (divers)

Explorer le corpus

Parcourez et explorez votre texte

Analyse

Outils d'analyse linguistique avances

Annotations manuelles

Classez et annotez les occurrences dans le concordancier

Recherches sauvegardées

Enregistrez et retrouvez vos recherches

Filtres et tri

Affinez vos résultats avec les filtres et le tri

Export CSV

Téléchargez vos données en un clic

Chaque page propose un bouton d'export CSV (icone de telechargement). Les fichiers sont encodes en UTF-8 avec BOM pour une ouverture directe dans Excel sans probleme d'accents. Les en-têtes sont traduits selon la langue de l'interface (français ou anglais). Les filtres actifs (POS, morphologie, metadonnées) sont respectes dans tous les exports.

Phrases

Liste complète des phrases avec leur numéro. Colonnes : #, Phrase

Lexique

Tous les lemmes avec POS, fréquence, fréquence par million et forme la plus courante. Colonnes : Lemme, POS, Fréquence, Par million, Exemple

Concordances

Chaque occurrence avec contexte. Colonnes : #, Contexte gauche, Mot, Contexte droit, POS + colonnes d'annotation a leur position

Entites

Toutes les entités détectees. Colonnes : Entite, Type, Fréquence, Par million

Motifs

Phrases correspondantes. Colonnes : Contexte gauche, Motif, Contexte droit, Phrase, Distance

Mots-clés

Mots spécifiques au corpus. Colonnes : Lemme, POS, Fréquence corpus, Par million corpus, Par million référence, Spécificité (G2), Taille d'effet, Direction

Interface

Navigation, langues et affichage

Bonnes pratiques

Conseils pour tirer le meilleur parti de la plateforme

  • 1Commencez par un petit corpus (quelques centaines de phrases) pour valider votre pipeline avant d'importer le fichier complet.
  • 2Pour les PDF, ajustez la page de début pour ignorer les pages de titre et de table des matières.
  • 3Utilisez le filtre multi-POS pour comparer les noms et verbes d'un même corpus.
  • 4La vue concordance est idéale pour observer les collocations et les patrons syntaxiques récurrents. Triez par KWIC pour les repérer.
  • 5Utilisez les n-grammes pour repérer les expressions récurrentes, puis la recherche de motifs pour des séquences plus complexes.
  • 6Les mots-clés vous montrent ce qui rend votre corpus unique par rapport au français general. Comparez les surreprésentés et les sous-représentés.
  • 7Si votre fichier contient des colonnes auteur ou date, les filtres par metadonnées permettent de comparer des sous-corpus sans réimporter.
  • 8Ajoutez des colonnes d'annotation dans le concordancier (icone engrenage) pour classer les occurrences selon vos propres critères de recherche.
  • 9Pour les cooccurrences, commencez par le T-score (associations fréquentes) puis affinez avec le G2 (fiable même pour les faibles fréquences).
  • 10Tous les exports CSV respectent vos filtres actifs et sont disponibles en français et en anglais. Les colonnes d'annotation sont incluses.
  • 11Sauvegardez vos recherches importantes (icône horloge) pour les retrouver rapidement. L'historique conserve automatiquement vos 20 dernières recherches.
  • 12Copiez l'adresse de n'importe quelle page pour partager votre vue exacte avec un collègue. Tous les filtres sont dans l'URL.
  • 13Le traitement NLP utilise deux modèles spécialisés : un transformeur pour la grammaire (POS, dépendances, morphologie) et un modèle statistique pour les entités nommées.