Bibliotheken und Toolkits für die Verarbeitung natürlicher Sprache.
NLP & Textverarbeitung
Repositories
HanLP: Ein mehrsprachiges NLP-Toolkit für industrielle Anwendungen, das chinesische Wortsegmentierung, POS-Tagging, Erkennung benannter Entitäten, Dependency Parsing und mehr mit Deep-Learning- und statistischen Modellen bietet.
Jieba ist eine leistungsstarke chinesische Textsegmentierungsbibliothek für Python, die mehrere Segmentierungsmodi, Wortartmarkierung, Schlüsselwortextraktion und benutzerdefinierte Wörterbücher unterstützt. Ideal für NLP und Suchmaschinenanwendungen.
spaCy ist eine fortschrittliche Bibliothek für natürliche Sprachverarbeitung (NLP) in Python und Cython. Sie bietet state-of-the-art Geschwindigkeit und neuronale Netzwerkmodelle für Tokenisierung, Named-Entity-Recognition, Textklassifikation und Dependency-Parsing in über 70 Sprachen. Zusätzlich unterstützt spaCy Transformer wie BERT, ein produktionsreifes Trainingssystem und einfache Modellbereitstellung.
FastText ist eine effiziente Bibliothek zum Lernen von Wortdarstellungen und Textklassifizierung, entwickelt von Facebook Research. Unterstützt die Verarbeitung von Teilwortinformationen, mehrsprachige Modelle und bietet vortrainierte Vektoren für 157 Sprachen, ideal für NLP-Aufgaben wie Stimmungsanalyse.
Umfassendes Repository zur Verfolgung des Fortschritts in der natürlichen Sprachverarbeitung mit 50+ NLP-Aufgaben in mehreren Sprachen, Benchmark-Datensätzen, Leistungsmetriken und Spitzenforschung für ML-Praktiker.