Inactive

CENTER FOR
DIGITAL TRUST

FineWeb2-HQ

Multilingual data filtering tools for LLM pretraining using FastText and Transformer-MLP classifiers.

Toolset for multilingual data quality filtering using FastText language identification and Transformer-MLP quality classifiers. Supports embedding generation, model training, and automated dataset curation for the FineWeb2-HQ corpus covering 20 languages. Accompanies an arXiv preprint on model-based data selection.

Large Language ModelNatural Language

Maturity

Support

C4DT

Lab

Maturity

Support

C4DT

Lab

Technical

Source code: Lab Github
Last commit: 2025-05-16

Machine Learning and Optimization Laboratory

Machine Learning and Optimization Laboratory

Martin Jaggi

Prof. Martin Jaggi

The Machine Learning and Optimization Laboratory is interested in machine learning, optimization algorithms and text understanding, as well as several application domains.

This page was last edited on 2026-03-03.

This page was last edited on 2026-03-03.