Repository navigation

#

corpus-data

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

3940
8 天前

ChatGPT 中文语料库 对话语料 小说语料 客服语料 用于训练大模型

909
1 年前

📚中文突发事件语料库(Chinese Emergency Corpus)-上海大学-语义智能实验室

713
6 年前

地球上最全的华语现代诗歌语料库,3k+诗人,80K+诗歌,15M+字

Python
700
8 个月前

chinese NLP corpus of chinese science fiction,chinese science fiction corpus : About 4675 Chinese science fiction novels 大约有4675本科幻小说,中文科幻小说自然语言处理语料库,中文科幻小说文本语料库,中文科幻小说文本数据库,科幻小说语料

419
3 年前

UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language

Macaulay2
263
2 年前

chinese NLP corpus of chinese science fiction, chinese science fiction corpus: Archive of the Ark Plan of Ula Science Fiction Website 乌拉科幻小说网方舟计划存档,中文科幻小说自然语言处理语料库,中文科幻小说文本语料库,中文科幻小说文本数据库,科幻小说语料

122
3 年前

Utilities for Processing the Switchboard Dialogue Act Corpus

Python
70
5 年前

DANeS is an open-source E-newspaper dataset by collaboration between DATASET JSC (dataset.vn) and AIV Group (aivgroup.vn)

Python
67
3 年前

爬取bilibili视频下的评论,最新出品!!!⚠本代码只适用于学习,做其他事情概不负责!!!

Python
64
16 天前

ParlaMint: Comparable Parliamentary Corpora

XSLT
63
1 个月前

📚中文环境突发事件语料库(Chinese Environment Emergency Corpus)-上海大学-语义智能实验室

46
10 年前

金庸15部小说字典

44
7 年前

A Public Corpus for Machine Learning

JavaScript
44
7 年前

CCNC: A Comprehensive Chinese Name Corpus (3.65M name samples). 大型中文姓名语料库 (内含365万姓名语例)。

Jupyter Notebook
43
4 年前
Python
40
5 个月前