数据集(Dataset)是为特定研究、分析或模型训练目的,按统一结构组织的数据集合,是数据分析、机器学习与 AI 的核心基础。

一、核心概念与结构
- 样本(Sample):每行数据,如一条用户记录、一张图片。
- 特征(Feature):每列属性,如年龄、价格、文本内容。
- 标签(Label):监督学习中需预测的目标,如分类结果、真实价格。
二、主要类型
按数据结构
- 结构化:行列清晰(如表格、数据库),适合传统统计与机器学习。
- 非结构化:无固定格式(如文本、图像、音频、视频)。
- 半结构化:含标签 / 元数据(如 JSON、XML)。
按应用场景
- 通用入门:鸢尾花、泰坦尼克号、MNIST 手写数字、CIFAR 图像分类。
- 计算机视觉:imageNet、COCO(目标检测 / 分割)、Openimages。
- 自然语言处理(NLP):IMDB 影评、THUCNews 中文新闻、Common Crawl 网页语料。
- 金融经济:Quandl、世界银行开放数据、FRED 美联储经济数据。
- 地理空间:OpenStreetMap、卫星遥感数据集。
- 时序数据:股票价格、气象记录、传感器时序数据。
三、主流公开数据集平台
国际平台
| 平台 | 网址 | 特色 |
|---|---|---|
| Kaggle | https://www.kaggle.com/ | 竞赛 + 数据集 + 代码,覆盖全领域 |
| UCI ML Repository | https://archive.ics.uci.edu/datasets | 经典入门数据集(鸢尾花、泰坦尼克) |
| Hugging Face Datasets | https://huggingface.co/datasets | NLP / 多模态,一键加载 |
| Google BigQuery Public | https://cloud.google.com/bigquery/public-data | 云端可直接查询分析 |
| COCO | https://cocodataset.org/ | 计算机视觉标杆 |
国内平台
| 平台 | 网址 | 特色 |
|---|---|---|
| 阿里云天池 | https://tianchi.aliyun.com/ | 竞赛 + 中文数据集 |
| CnOpenData | - | 中国经济 / 社会 / 商业研究数据 |
| 国家数据局开放平台 | https://www.nda.gov.cn/ | 国家级权威开放数据 |
| 清华 THUCNews | - | 中文新闻分类数据集 |
四、获取与使用要点
- 明确用途:先确定任务(分类 / 回归 / 生成 / 分析),再匹配数据集。
- 检查许可:注意商用 / 非商用、署名、衍生限制。
- 数据质量:优先完整、干净、标注规范的数据集。
- 获取方式:官网下载、API 调用、云端直接查询、框架内置(如 Keras Datasets)。

