#开源 #下载
快速下载中文数据集,处理数据集,数据分析、可视化分析,一站式解决数据问题

#开源 #下载 快速下载中文数据集,处理数据集,数据分析、可视化分析,一站式解决数据问题

Property
Oct 26, 2022 07:51 PM
地址
https://github.com/CYang828/datasetstation
notion image

datasetstation

datasetstation 快速下载中文数据集,处理数据集,数据分析、可视化分析,一站式解决数据问题
  • 不用等了很久,结果 Timeout
  • 不用每次写不规范的数据预处理代码
  • 数据可视化分析不规范、每次都要重写非常麻烦
  • 兼容 Tensorflow、Pytorch、HG Transformers 等主流的建模工具,一次数据处理,多平台数据建模
  • 学习数据处理和分析的方法和流程,帮助你更懂数据

快速使用

pip install datasetstation

# 在 jupyter 中使用,执行下面命令
jupyter nbextension enable --py widgetsnbextension
jupyter labextension install jupyter-matplotlib
from datasetstation import load_dataset, list_datasets

# 打印支持的数据集
print(list_datasets())

# 加载数据及并打印并第一个样本
hotel_review = load_dataset('hotel-review')
print(hotel_review['train'][0])

# 处理数据集 - 给每个样本增加一个文本长度的特征
hotel_review = hotel_review.map(lambda x: {"length": len(x["text"])})

# 结合 transformers 库,快速使用各种模型处理任务
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-cased')

tokenized_dataset = hotel_review.map(lambda x: tokenizer(x['text']), batched=True)
notion image
更多的关于 dataset 的操作,请参考 Huggingface Datasets 文档

目前支持数据集

(陆续上传更多中文数据集)如果你有数据集,希望也能快速使用,请联系作者公众号 @春阳CYang。存储空间有限,先到先得!
notion image

使用方法和版本迭代

如果觉得有帮助,希望能给我个星星
notion image

协议

Copyright on (c) 2022-present CYang