
Le plan est d'utiliser une approche basée sur BERT pour l'apprentissage semi-supervisé de textes anormaux, divisée en quatre parties : le pré-traitement non supervisé, les algorithmes de clustering, l'incorporation de pseudo-étiquettes et l'apprentissage actif utilisant de grands modèles.
```python import os import re import numpy as np import pand...