Automatic Skill Clustering at Scale: From 30k to 307k Labels
Wie die alte Pipeline aus Stella, PCA, t-SNE und HDBSCAN auf voller Größe scheiterte und durch qwen3-embedding, Mutual-kNN und Leiden ersetzt wurde. Ergebnis: eine belastbare Produktionsstruktur für 307k bilinguale Skills.
How the old Stella, PCA, t-SNE, and HDBSCAN pipeline failed at full scale and was replaced by qwen3-embedding, mutual kNN, and Leiden. The result: a durable production structure for 307k bilingual skills.