Veuillez générer une image : Le principe fondamental de la combinaison d'algorithmes de clustering avec NIPALS (linéaire) et KPLS (non linéaire) est de construire une architecture en trois étapes de "stratification par clustering - ajustement du modèle - prédiction par fusion" pour s'adapter aux besoins de modélisation de données hétérogènes (comprenant plusieurs sous-groupes, des caractéristiques linéaires et non linéaires mixtes). Le processus spécifique est le suivant : 1) Principe de stratification par clustering : Un algorithme de clustering hiérarchique est utilisé pour regrouper l'ensemble de données prétraitées. Le coefficient de silhouette est utilisé comme indice d'évaluation, et le nombre optimal de clusters est automatiquement déterminé dans la plage du "nombre maximal de clusters" défini par l'utilisateur. Dans le même temps, les clusters dont la taille d'échantillon est inférieure au "seuil minimal du nombre d'échantillons" sont fusionnés pour garantir que chaque cluster dispose de suffisamment d'échantillons de modélisation (20 à 50 sont recommandés). 2) Détection de non-linéarité intra-cluster : Pour chaque cluster indépendant, les performances du modèle linéaire NIPALS et du modèle non linéaire KPLS sont comparées par validation croisée interne (en utilisant l'augmentation de R² comme critère). Si l'augmentation de R² de KPLS par rapport à NIPALS dépasse le "seuil de détection de non-linéarité" (par défaut 5,0 %), le cluster est déterminé comme étant une caractéristique non linéaire et KPLS est sélectionné pour la modélisation ; sinon, il est déterminé comme étant une caractéristique linéaire et NIPALS est sélectionné pour la modélisation. 3) Fusion de modèles et prédiction : Lorsqu'un nouvel échantillon est entré, il est affecté au modèle de cluster correspondant via l'algorithme de correspondance du plus proche voisin. Le système calcule automatiquement le R² pondéré de chaque cluster (pondéré par la taille de l'échantillon du cluster), affiche le résultat de prédiction global et conserve les paramètres de modélisation indépendants et les indicateurs de performance de chaque cluster pour prendre en charge l'analyse interactive. Veuillez dessiner l'organigramme de l'algorithme CPLS en référence à l'image donnée et l'exporter au format Mermaid.