为什么要做数据分析?
- 发现真实: 破除心理误区, 脱离直观感受, 用数据来证伪, 来发现真实情况
- 迭代升级: 收集生活/工作中数据, 通过分析来优化和迭代, 比如时间账单
- 辅助决策: 广泛应用在写文章, 调研, 找工作, 投资等方方面面, 有了数据思维, 可以帮助发现更底层的东西, 帮你更好的决策.
为什么要用 Pandas 和 Jupyter?
- 传统使用 Excel, 麻烦, 低效, 无法批量处理, 死板, 无法自定义
- 用 pandas 和 jupyter, 随着你的思维起舞, 让你所有想要证实或证伪, 在指尖流淌, 拆表并表作图无比灵活, 哪种舒爽感, 不知强多少倍.
如何入门
- 首推 时间账单
- 不光记录, 而且可以针对自己或者你感兴趣的人做数据分析(大妈提供了他 10 年的时间记录)
- 常用特征
- 效率指数 = 输出 / 输入
- 情绪指数 = 低效娱乐 / (输入 + 输出)
- 好奇心指数 = other / all
- 强推 Titanic: Machine Learning from Disaster
- Kaggle 是数据爱好者学习/社交/娱乐的圣地, 一大堆数据让你玩, 我是从这个比赛开始的
- 参考分析框架 hugo0125TitanicEDA
- 还有一个我正在玩的项目 Home Credit Default Risk
- 参考分析框架 lichuan_0621_EDA.ipynb
- 荐书 利用Python进行数据分析 原书第2版
Changelog
- 18.8.18 init.