Библиотеки и инструменты для обработки естественного языка.
Обработка естественного языка и текста
Репозитории
HanLP: Многоязычный инструментарий обработки естественного языка для промышленных приложений, предоставляющий сегментацию китайского текста, POS-разметку, распознавание именованных сущностей, анализ зависимостей и другие функции с использованием моделей глубокого обучения и статистических моделей.
Jieba - мощная библиотека для сегментации китайского текста на Python, поддерживающая несколько режимов сегментации, частеречную разметку, извлечение ключевых слов и пользовательские словари. Идеально подходит для NLP и поисковых систем.
spaCy — это передовая библиотека обработки естественного языка (NLP) для Python и Cython, предоставляющая современные нейросетевые модели для токенизации, распознавания именованных сущностей, классификации текста и синтаксического анализа для более чем 70 языков. Поддерживает трансформеры (например, BERT), включает систему обучения для продакшена и инструменты развёртывания моделей.
FastText — это эффективная библиотека для обучения представлений слов и классификации текста, разработанная Facebook Research. Поддерживает обработку подсловной информации, многоязычные модели и предоставляет предобученные векторы для 157 языков, идеально подходит для задач NLP, таких как анализ тональности.
Комплексный репозиторий для отслеживания прогресса в обработке естественного языка, охватывающий 50+ NLP задач на нескольких языках с эталонными наборами данных, метриками производительности и передовыми исследованиями.