一个典型的数据分析项目将分为几个不同的阶段。一般有五个,可以一起来了解一下。
阶段1:定义问题
第一个阶段是最重要的阶段,在这个阶段,你提出问题并具体说明。
比如:你对从数据中学习感兴趣吗?现在,详细说明这个问题并随着时间的推移不断完善它,这非常重要,因为它最终将指导你获得的数据和你所做的的分析类型。你可以问六种类型的问题从描述性的,到探索性的,到推理性的,到因果性的,预测性的和机械性的。
所以,弄清楚你在问是什么类型的问题,以及问题的类型到底是什么真的很有影响力。你应该花很多时间思考这个问题。
阶段2:探索性数据分析
探索性数据分析有两个主要目标。首先是你要知道你拥有的数据是否适合回答你的问题。“数据够吗?”“缺失值太多了吗?”我是否遗漏了某些变量,或者我是否需要收集更多数据来获取这些变量等?
探索性数据分析的第二个目标是制定解决方案的草图。
阶段3:形式化建模
下一阶段是关于形式建模的第三阶段。如果你的草图没问题并且可能有效,那么你已经获得了正确的数据,并且可以继续前进。正式的建模阶段是明确写下你所问的问题和你试图估计的参数的方式。挑战你的模型并开发一个正式的框架对于确保你能够为回答你的问题开发可靠的证据是非常重要的。这有助于检查他们对不同假设的敏感度。
第4阶段:解释
完成分析和正式建模后,需要考虑如何解释结果。你可能已经进行了许多不同的分析,可能拟合了许多不同的模型。因此,你需要考虑许多不同的信息。解释阶段的部分挑战是收集所有信息并权衡每个不同的证据。你知道哪些部分更可靠,哪些部分比其他部分更不确定,哪些部分比其他部分更重要,以了解与回答问题相关的全部证据。
阶段5:沟通
最后一个阶段是交流阶段。任何成功的数据科学项目都希望将其发现传达给某种受众。该受众可能是组织内部的,也可能是外部的,可能是大量的观众,甚至只是少数人。
数据科学实验的输出
数据分析实验的输出形式有很多种。最常出现四种一般类型的输出。
报告
演示文稿
交互式网页
应用程序