isar innovations gmbh

Hier veröffentlichen wir Forschungsarbeiten, die aus unserer Produktentwicklung entstehen.

Here we publish research that emerges from our product work.

31. März 2026 March 31, 2026 Clustering Infrastructure

Automatic Skill Clustering at Scale: From 30k to 307k Labels

Wie die alte Pipeline aus Stella, PCA, t-SNE und HDBSCAN auf voller Größe scheiterte und durch qwen3-embedding, Mutual-kNN und Leiden ersetzt wurde. Ergebnis: eine belastbare Produktionsstruktur für 307k bilinguale Skills.

How the old Stella, PCA, t-SNE, and HDBSCAN pipeline failed at full scale and was replaced by qwen3-embedding, mutual kNN, and Leiden. The result: a durable production structure for 307k bilingual skills.

Whitepaper lesen → Read whitepaper →