Morphalou: frequency filter based on Lexique

Morphalou: use new dataset location, uncompress
Add morphalou dataset and related README
2024-09-23 19:30:40 +02:00 · 2024-09-19 21:06:08 +02:00 · 2024-09-19 20:58:48 +02:00
7 changed files with 163 additions and 9 deletions
--- a/data/raw/.gitignore
+++ b/data/raw/.gitignore
@ -1 +1,2 @@
 Lexique383
+Morphalou3.1_formatTEI
--- a/data/raw/Morphalou3.1_formatTEI.tar.xz
+++ b/data/raw/Morphalou3.1_formatTEI.tar.xz
--- a/data/raw/README.md
+++ b/data/raw/README.md
@ -0,0 +1,29 @@
+# Versions réduites de jeux de données
+
+Les fichiers dans ce dossier sont des versions réduites de jeux de données
+tiers.
+
+Veillez à respecter les licences respectives de ces ressources dans les usages
+que vous en faites.
+
+## Lexique
+
+La base de données Lexique (http://www.lexique.org/) est le travail, entre
+autres contributeurs et contributrices, de  Boris New et Christophe Pallier,
+sous licence CC BY-NC
+
+Le fichier présent ici est une version tronquée de la v3.83. Il ne conserve que
+la partie utile au présent logiciel. Le jeu de données entier est disponible
+sur leur site.
+
+## Morphalou
+
+La base de données Morphalou
+(https://www.ortolang.fr/market/lexicons/morphalou/v3.1) est le travail, entre
+autres contributeurs et contributrices, de Sandrine Ollinger, Christophe
+Benzitoun, Evelyne Jacquey, Ulrike Fleury, Etienne Petitjean et Marie
+Tonnelier. Sa version 3.1 est distribuée sous licence LGPL-LR.
+
+Le fichier présent ici est une version tronquée de la v3.1. Il ne conserve que
+la partie utile au présent logiciel. Le jeu de données entier est disponible
+sur leur site.
--- a/pwgen_fr/lexique.py
+++ b/pwgen_fr/lexique.py
@ -90,9 +90,11 @@ class Lexique:
        }

    dataset: list[Mot]
+    lemfreq: dict[str, float]

-    def __init__(self, dataset):
+    def __init__(self, dataset, lemfreq):
        self.dataset = dataset
+        self.lemfreq = lemfreq

    @classmethod
    def _ensure_uncompressed(cls):
@ -155,6 +157,8 @@ class Lexique:
    def parse(cls) -> "Lexique":
        out = []
        rows = []
+        lemfreq: dict[str, float] = {}
+
        with cls.LEXIQUE_PATH.open("r") as h:
            reader = csv.DictReader(h, dialect="excel-tab")
            for row in reader:
@ -188,6 +192,14 @@ class Lexique:

        # Second pass: populate variants
        for row in rows:
+            # Populate lemfreq
+            old_freq = lemfreq.get(row["ortho"], 0.0)
+            lemfreq[row["ortho"]] = max(
+                old_freq,
+                float(row["freqlemlivres"]),
+                float(row["freqlemfilms2"]),
+            )
+
            lemme = cls._find_word(out, row)
            if lemme is None:
                continue
@ -221,7 +233,7 @@ class Lexique:
                    lemme.variantes[(genre, nombre)] = row["ortho"]

            # No need to match adverbs (invariant)
-        return cls(out)
+        return cls(out, lemfreq)

    def most_common(
        self, cat_gram: CatGram, threshold: t.Optional[int] = None
--- a/pwgen_fr/morphalou.py
+++ b/pwgen_fr/morphalou.py
@ -1,9 +1,12 @@
 """ Reads the Morphalou dataset, in its TSV form """

-import typing as t
-from lxml import etree
-from pathlib import Path
 import itertools
+import logging
+import subprocess
+import typing as t
+from pathlib import Path
+
+from lxml import etree

 from .word_db import Adjectif, Adverbe, Genre, Nom, Nombre, Temps, Verbe, WordDb

@ -12,11 +15,12 @@ TSV_NS = {
    "xml": "http://www.w3.org/XML/1998/namespace",
 }

+logger = logging.getLogger(__name__)
+

 class MorphalouSet:
    MORPHALOU_DIR_PATH = (
-        Path(__file__).parent.parent
-        / "data/raw/morphalou/morphalou/5/Morphalou3.1_formatTEI"
+        Path(__file__).parent.parent / "data/raw/Morphalou3.1_formatTEI"
    )
    MORPHALOU_FILENAME_TEMPLATE = "{cat_name}_Morphalou3.1_TEI.xml"

@ -32,10 +36,44 @@ class MorphalouSet:
    def __init__(self):
        self.word_db = WordDb()

+    @classmethod
+    def _ensure_uncompressed(cls):
+        """Ensures the dataset is uncompressed"""
+        if cls.MORPHALOU_DIR_PATH.exists():
+            return
+
+        lexique_archive = cls.MORPHALOU_DIR_PATH.with_suffix(".tar.xz")
+        if not lexique_archive.exists():
+            logger.error("Missing compressed dataset at %s", lexique_archive)
+            raise Exception(f"Missing compressed dataset at {lexique_archive}")
+
+        logger.info("Uncompressing dataset")
+        subprocess.check_call(
+            [
+                "tar",
+                "-xJf",
+                lexique_archive.as_posix(),
+                "-C",
+                lexique_archive.parent.as_posix(),
+            ]
+        )
+
+        if not cls.MORPHALOU_DIR_PATH.exists():
+            logger.error(
+                "Uncompressed dataset still missing at %s after extraction",
+                cls.MORPHALOU_DIR_PATH,
+            )
+            raise Exception(
+                f"Uncompressed dataset still missing at {cls.MORPHALOU_DIR_PATH} after extraction"
+            )
+
    def parse(self):
        """Parses the dataset"""
+        self.__class__._ensure_uncompressed()
+
        for cat, cat_file in self.__class__.CAT_MAPPING.items():
            word_db_elt = WordDb.CATEGORY_TO_ATTR[cat]
+            logging.info("Parsing %s...", word_db_elt)
            setattr(
                self.word_db,
                word_db_elt,
--- a/pwgen_fr/morphalou_frequency.py
+++ b/pwgen_fr/morphalou_frequency.py
@ -0,0 +1,74 @@
+""" Generates a worddb based on Morphalou, but limits to frequent words based on
+external sources (eg Lexique) """
+
+import logging
+import typing as t
+
+from . import lexique, morphalou
+from .word_db import Adjectif, Adverbe, Genre, Nom, Nombre, Temps, Verbe, WordDb
+
+logger = logging.getLogger(__name__)
+
+
+class MorphalouFreqSet:
+    morphalou_db: WordDb
+    lexique: lexique.Lexique
+    filtered_db: WordDb
+
+    def __init__(
+        self,
+        morphalou_db: t.Optional[WordDb] = None,
+        lexique: t.Optional[lexique.Lexique] = None,
+    ):
+        if not morphalou_db:
+            morphalou_set = morphalou.MorphalouSet()
+            morphalou_set.parse()
+            self.morphalou_db = morphalou_set.word_db
+        else:
+            self.morphalou_db = morphalou_db
+
+        if not lexique:
+            self.lexique = lexique.Lexique.parse()
+        else:
+            self.lexique = lexique
+
+        self.filtered_db = self._filter_lexique()
+
+    def _filter_nom(self, nom: Nom) -> bool:
+        freq = max(
+            self.lexique.lemfreq.get(nom.sing, 0.0),
+            self.lexique.lemfreq.get(nom.plur, 0.0),
+        )
+        return freq > 0
+
+    def _filter_adjectif(self, adjectif: Adjectif) -> bool:
+        freq = max(
+            self.lexique.lemfreq.get(adjectif.masc_sing, 0.0),
+            self.lexique.lemfreq.get(adjectif.fem_sing, 0.0),
+        )
+        return freq > 0
+
+    def _filter_verbe(self, verbe: Verbe) -> bool:
+        freq = max(
+            self.lexique.lemfreq.get(verbe.present_sing, 0.0),
+            self.lexique.lemfreq.get(verbe.futur_sing, 0.0),
+            self.lexique.lemfreq.get(verbe.imparfait_sing, 0.0),
+            self.lexique.lemfreq.get(verbe.present_plur, 0.0),
+            self.lexique.lemfreq.get(verbe.futur_plur, 0.0),
+            self.lexique.lemfreq.get(verbe.imparfait_plur, 0.0),
+        )
+        return freq > 0
+
+    def _filter_adverbe(self, adverbe: Adverbe) -> bool:
+        if " " in adverbe.adv:
+            return False
+        freq = self.lexique.lemfreq.get(adverbe.adv, 0.0)
+        return freq > 0
+
+    def _filter_lexique(self) -> WordDb:
+        out = WordDb()
+        out.noms = list(filter(self._filter_nom, self.morphalou_db.noms))
+        out.adjectifs = list(filter(self._filter_adjectif, self.morphalou_db.adjectifs))
+        out.verbes = list(filter(self._filter_verbe, self.morphalou_db.verbes))
+        out.adverbes = list(filter(self._filter_adverbe, self.morphalou_db.adverbes))
+        return out
--- a/pwgen_fr/word_db.py
+++ b/pwgen_fr/word_db.py
@ -16,7 +16,7 @@ class Genre(Enum):
    @classmethod
    def pick(cls) -> "Genre":
        """random-pick (avoids inv)"""
-        return secrets.choice([cls.masc, cls.fem])
+        return secrets.choice([cls.MASC, cls.FEM])


 class Nombre(Enum):
@ -141,7 +141,7 @@ class Adverbe(t.NamedTuple):
 class WordDb:
    """Base de donnée de mots, sérialisable"""

-    SERIALIZED_GZ_LOCATION = Path(__file__).parent.parent / "morphalou_full.json.gz"
+    SERIALIZED_GZ_LOCATION = Path(__file__).parent.parent / "morphalou.json.gz"

    _serialize_data: dict[str, t.Type[t.NamedTuple]] = {
        "noms": Nom,
Author	SHA1	Message	Date
Théophile Bastian	4f152d45f2	Morphalou: frequency filter based on Lexique	2024-09-23 19:30:40 +02:00
Théophile Bastian	a872ecb0f9	Morphalou: use new dataset location, uncompress	2024-09-19 21:06:08 +02:00
Théophile Bastian	e8379656e1	Add morphalou dataset and related README	2024-09-19 20:58:48 +02:00