Обработка естественного языка и текста

Библиотеки и инструменты для обработки естественного языка.

Repositories

spaCy — это передовая библиотека обработки естественного языка (NLP) для Python и Cython, предоставляющая современные нейросетевые модели для токенизации, распознавания именованных сущностей, классификации текста и синтаксического анализа для более чем 70 языков. Поддерживает трансформеры (например, BERT), включает систему обучения для продакшена и инструменты развёртывания моделей.

Python
33.3k
hankcs/HanLP

中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理

Python
36.2k

结巴中文分词

Python
34.8k

Library for fast text representation and classification.

HTML
26.5k

Repository to track the progress in Natural Language Processing (NLP), including the datasets and the current state-of-the-art for the most common NLP tasks.

Python
23.0k