Taalmodellering

n-gram modellering

'Colibri core' is een Natuurlijke Taalverwerkingshulpmiddel als ook een C++ en Python-bibliotheek voor het werken met standaard taalkundige constructies zoals n-grams en skipgrams (d.w.z. patronen met een of meerdere gaten van ofwel vaststaande, ofwel dynamische grootte) op een snelle en geheugenefficiënte manier. In de kern bevindt zich de colibri-patroonmodelleerder die het mogelijk maakt om doorzoekingspatroonmodellen te bouwen, bekijken en bewerken.

Github opslag

Grote Taalmodellen

Hugging Face Dutch Models
RobBERT: Een Nederlands RoBERTa Taalmodel
BERTje: Een Nederlands BERT model
GEITje: Een groot open taalmodel

Meertalige Taalmodellen inclusief het Nederlands

GPT-3
MBart

SpaCy

spaCy is een gratis open-source bibliotheek voor Natuurlijke Taalverwerking in Python.

Nederlandse modellen