Incomplete multi-view data clustering with hidden data mining and fusion techniques

Zhenjiao Liu

Résumé

Incomplete multi-view data clustering is a research direction that attracts attention in the fields of data mining and machine learning. In practical applications, we often face situations where only part of the modal data can be obtained or there are missing values. Data fusion is an important method for incomplete multi-view information mining. Solving incomplete multi-view information mining in a targeted manner, achieving flexible collaboration between visible views and shared hidden views, and improving the robustness have become quite challenging. This thesis focuses on three aspects: hidden data mining, collaborative fusion, and enhancing the robustness of clustering. The main contributions are as follows:1. Hidden data mining for incomplete multi-view data: existing algorithms cannot make full use of the observation of information within and between views, resulting in the loss of a large amount of valuable information, and so we propose a new incomplete multi-view clustering model IMC-NLT (Incomplete Multi-view Clustering Based on NMF and Low-Rank Tensor Fusion) based on non-negative matrix factorization and low-rank tensor fusion. IMC-NLT first uses a low-rank tensor to retain view features with a unified dimension. Using a consistency measure, IMC-NLT captures a consistent representation across multiple views. Finally, IMC-NLT incorporates multiple learning into a unified model such that hidden information can be extracted effectively from incomplete views. We conducted comprehensive experiments on five real-world datasets to validate the performance of IMC-NLT. The overall experimental results demonstrate that the proposed IMC-NLT performs better than several baseline methods, yielding stable and promising results.2. Collaborative fusion for incomplete multi-view data: our approach to address this issue is Incomplete Multi-view Co-Clustering by Sparse Low-Rank Representation (CCIM-SLR). The algorithm is based on sparse low-rank representation and subspace representation, in which jointly missing data is filled using data within a modality and related data from other modalities. To improve the stability of clustering results for multi-view data with different missing degrees, CCIM-SLR uses the Γ-norm model, which is an adjustable low-rank representation method. CCIM-SLR can alternate between learning the shared hidden view, visible view, and cluster partitions within a co-learning framework. An iterative algorithm with guaranteed convergence is used to optimize the proposed objective function. Compared with other baseline models, CCIM-SLR achieved the best performance in the comprehensive experiments on the five benchmark datasets, particularly on those with varying degrees of incompleteness.3. Enhancing the clustering robustness for incomplete multi-view data: we offer a fusion of graph convolution and information bottlenecks (Incomplete Multi-view Representation Learning Through Anchor Graph-based GCN and Information Bottleneck - IMRL-AGI). First, we introduce the information bottleneck theory to filter out the noise data with irrelevant details and retain only the most relevant feature items. Next, we integrate the graph structure information based on anchor points into the local graph information of the state fused into the shared information representation and the information representation learning process of the local specific view, a process that can balance the robustness of the learned features and improve the robustness. Finally, the model integrates multiple representations with the help of information bottlenecks, reducing the impact of redundant information in the data. Extensive experiments are conducted on several real-world datasets, and the results demonstrate the superiority of IMRL-AGI. Specifically, IMRL-AGI shows significant improvements in clustering and classification accuracy, even in the presence of high view missing rates (e.g. 10.23% and 24.1% respectively on the ORL dataset).

Le regroupement de données multivues incomplètes est un axe de recherche majeur dans le domaines de l'exploration de données et de l'apprentissage automatique. Dans les applications pratiques, nous sommes souvent confrontés à des situations où seule une partie des données modales peut être obtenue ou lorsqu'il y a des valeurs manquantes. La fusion de données est une méthode clef pour l'exploration d'informations multivues incomplètes. Résoudre le problème de l'extraction d'informations multivues incomplètes de manière ciblée, parvenir à une collaboration flexible entre les vues visibles et les vues cachées partagées, et améliorer la robustesse sont des défis. Cette thèse se concentre sur trois aspects : l'exploration de données cachées, la fusion collaborative et l'amélioration de la robustesse du regroupement. Les principales contributions sont les suivantes:1) Exploration de données cachées pour les données multi-vues incomplètes : les algorithmes existants ne peuvent pas utiliser pleinement l'observation des informations dans et entre les vues, ce qui entraîne la perte d'une grande quantité d'informations. Nous proposons donc un nouveau modèle de regroupement multi-vues incomplet IMC-NLT (Incomplete Multi-view Clustering Based on NMF and Low-Rank Tensor Fusion) basé sur la factorisation de matrices non négatives et la fusion de tenseurs de faible rang. IMC-NLT utilise d'abord un tenseur de faible rang pour conserver les caractéristiques des vues avec une dimension unifiée. En utilisant une mesure de cohérence, IMC-NLT capture une représentation cohérente à travers plusieurs vues. Enfin, IMC-NLT intègre plusieurs apprentissages dans un modèle unifié afin que les informations cachées puissent être extraites efficacement à partir de vues incomplètes. Des expériences sur cinq jeux de données ont validé les performances d'IMC-NLT.2) Fusion collaborative pour les données multivues incomplètes : notre approche pour résoudre ce problème est le regroupement multivues incomplet par représentation à faible rang. L'algorithme est basé sur une représentation éparse de faible rang et une représentation de sous-espace, dans laquelle les données manquantes sont complétées en utilisant les données d'une modalité et les données connexes d'autres modalités. Pour améliorer la stabilité des résultats de clustering pour des données multi-vues avec différents degrés de manquants, CCIM-SLR utilise le modèle Γ-norm, qui est une méthode de représentation à faible rang ajustable. CCIM-SLR peut alterner entre l'apprentissage de la vue cachée partagée, la vue visible et les partitions de clusters au sein d'un cadre d'apprentissage collaboratif. Un algorithme itératif avec convergence garantie est utilisé pour optimiser la fonction objective proposée.3) Amélioration de la robustesse du regroupement pour les données multivues incomplètes : nous proposons une fusion de la convolution graphique et des goulots d'étranglement de l'information (apprentissage de la représentation multivues incomplète via le goulot d'étranglement de l'information). Nous introduisons la théorie du goulot d'étranglement de l'information afin de filtrer les données parasites contenant des détails non pertinents et de ne conserver que les éléments les plus pertinents. Nous intégrons les informations sur la structure du graphe basées sur les points d'ancrage dans les informations sur le graphe local. Le modèle intègre des représentations multiples à l'aide de goulets d'étranglement de l'information, réduisant ainsi l'impact des informations redondantes dans les données. Des expériences approfondies sont menées sur plusieurs ensembles de données du monde réel, et les résultats démontrent la supériorité de IMRL-AGI. Plus précisément, IMRL-AGI montre des améliorations significatives dans la précision du clustering et de la classification, même en présence de taux élevés de données manquantes par vue (par exemple, 10,23 % et 24,1% respectivement sur l'ensemble de données ORL).

Incomplete multi-view data clustering with hidden data mining and fusion techniques

Clustering de données multivues incomplètes à l'aide de techniques de mining de données cachées et de fusion

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager