Bibliotecas y kits de herramientas para el procesamiento del lenguaje natural.
Procesamiento del lenguaje natural y texto
Repositorios
HanLP: Un kit de herramientas de procesamiento de lenguaje natural multilingüe para aplicaciones industriales, que proporciona segmentación de palabras chinas, etiquetado POS, reconocimiento de entidades nombradas, análisis de dependencias y más con modelos de aprendizaje profundo y estadísticos.
Jieba es una potente biblioteca de segmentación de texto en chino para Python, que admite múltiples modos de segmentación, etiquetado gramatical, extracción de palabras clave y diccionarios personalizados. Ideal para procesamiento de lenguaje natural y motores de búsqueda.
spaCy es una biblioteca avanzada de procesamiento de lenguaje natural (NLP) para Python y Cython, que ofrece modelos de redes neuronales de última generación para tareas como tokenización, reconocimiento de entidades nombradas, clasificación de texto y análisis de dependencias en más de 70 idiomas. Incluye soporte para transformers como BERT, un sistema de entrenamiento listo para producción y herramientas para desplegar modelos.
FastText es una biblioteca eficiente para el aprendizaje de representaciones de palabras y clasificación de texto, desarrollada por Facebook Research. Soporta el procesamiento de información de subpalabras, modelos multilingües y proporciona vectores preentrenados para 157 idiomas, ideal para tareas de NLP como análisis de sentimientos.
Repositorio integral que sigue el progreso en procesamiento de lenguaje natural, abarcando 50+ tareas NLP en múltiples idiomas con conjuntos de datos de referencia, métricas de rendimiento e investigaciones de vanguardia.