Обработка естественного языка и текста

Библиотеки и инструменты для обработки естественного языка.

Репозитории

hankcs / HanLP

HanLP: Многоязычный инструментарий обработки естественного языка для промышленных приложений, предоставляющий сегментацию китайского текста, POS-разметку, распознавание именованных сущностей, анализ зависимостей и другие функции с использованием моделей глубокого обучения и статистических моделей.

Python

36.4k

8 months ago

fxsjy / jieba

Jieba - мощная библиотека для сегментации китайского текста на Python, поддерживающая несколько режимов сегментации, частеречную разметку, извлечение ключевых слов и пользовательские словари. Идеально подходит для NLP и поисковых систем.

Python

35.1k

2 years ago

explosion / spaCy

spaCy — это передовая библиотека обработки естественного языка (NLP) для Python и Cython, предоставляющая современные нейросетевые модели для токенизации, распознавания именованных сущностей, классификации текста и синтаксического анализа для более чем 70 языков. Поддерживает трансформеры (например, BERT), включает систему обучения для продакшена и инструменты развёртывания моделей.

Python

33.7k

2 months ago

facebookresearch / fastText

FastText — это эффективная библиотека для обучения представлений слов и классификации текста, разработанная Facebook Research. Поддерживает обработку подсловной информации, многоязычные модели и предоставляет предобученные векторы для 157 языков, идеально подходит для задач NLP, таких как анализ тональности.

HTML

26.5k

2 years ago

sebastianruder / NLP-progress

Комплексный репозиторий для отслеживания прогресса в обработке естественного языка, охватывающий 50+ NLP задач на нескольких языках с эталонными наборами данных, метриками производительности и передовыми исследованиями.

Python

23.0k

2 years ago

Collections

Обработка естественного языка и текста

Репозитории

hankcs / HanLP

fxsjy / jieba

explosion / spaCy

facebookresearch / fastText

sebastianruder / NLP-progress

Graph