简介
什么是数据分析和挖掘?
所谓数据分析,即对已知的数据进行分析,然后提取出一些有价值的信息,比如统计出平均数、标准差等信息,数据分析的数据量有时可能不会太大,而数据挖掘,是指对大量的数据进行分析与挖掘,得到一些未知的、有价值的信息等,比如从网站的用户或用户行为数据中挖掘出用户的潜在需求信息,从而对网站进行改善等。
数据挖掘需要数据分析为基础
数据分析与数据挖掘能做什么事?
数据挖掘技术可以帮助我们更好地发现事物之间的规律。所以,我们可以利用数据挖掘技术实现数据规律的探索,比如发现窃电用户、发掘用户潜在需求、实现信息的个性化推送、发现疾病与症状甚至疾病与药物之间的规律……等。
数据挖掘的过程?
- 定义目标 (分析什么数据,解决什么问题)
- 获取数据(爬虫、下载统计网站的数据)
- 数据探索
- 数据预处理(数据清洗【去掉脏数据】、数据集成【集中】、数据变换【规范 化】、数据规约【精简、合并】)
- 挖掘建模(分类、聚类、关联、预测)
- 模型评价与发布
相关模块
相关模块简介
- numpy 可以高效处理数据、提供数组支持、很多模块都依赖他,比如pandas、 scipy、matplotlib都依赖他,所以这个模块是基础。
- pandas 我们课程后续用得最多的一个模块,主要用于进行数据探索和数据分析。
- matplotlib 作图模块,解决可视化问题。
- scipy 主要进行数值计算,同时支持矩阵运算,并提供了很多高等数据处理功能, 比如积分、傅里叶变换、微分方程求解等。
- statsmodels 这个模块主要用于统计分析
- Gensim 这个模块主要用于文本挖掘
- sklearn、keras 前者机器学习,后者深度学习
numpy
、mkl
和scipy
模块建议下载安装
相关模块基本使用
numpy
1 | import numpy |
pandas
1 | import pandas as pda |
Python数据导入
导入excel
1 | import pandas as pda |
导入mysql
1 | import pandas as pda |
导入html
使用pandas,可以直接从html网页中加载对应table表格中的数据,但是在使用read_html()之前,需要先安装html5lib模块与beautifulsoup4模块。
pda.read_html()
导入文本
pda.read_table()