我眼中的大数据
T01314118 赵异宝 我眼中的 大数据 在此之前对大数据不怎么了解, 以为就是指当今信息庞杂、 数据量很大的这种现象。 看完这本书发现其实不然。 大数据不仅指一个大规模生产、分享和应用数据的时代, 它指的更是立足于云计算从各种各样数据中快速获得有价值的信息的技术。 大数据与云计算, 一个是问题, 一个是解决方法。 通过云计算对大数据进行分析、 预测, 会使决策更为精准, 释放更多数据的隐藏价值。 传统数据分析技术是用设定的统计方法对数据进行分析, 以发现数据的功能和价值。 与此相比, 大数据技术的核心目标是要从体量巨大、 结构繁多的数据中挖掘出背后规律, 从而使数据发挥最大化的价值。 在这样的背景下, 该书作者抛出了大数据时代处理数据理念上的三大转变: 要全体不要抽样, 要效率不要绝对精确, 要相关不要因果。 对于 要相关不要因果 , 我与译者一样存有异议。 我不认同大数据时代 相关关系比因果关系更重要 。 有了计算机和互联网, 我们解决问题的方式似乎变得很简单。 很多时候答案很容易得出, 过程却无从知晓。因为没有人能够从成千上万的数据里读到 科学 , 我们读到的只是那个抽象的概念。 而这些正与相关性紧密联系。 大数据时代的学习, 更注重相关性, 可以解决传统学习中的很多问题。由于数据体量大、 数据结构复杂、 数据的质量参差不齐, 集成学习能力远远超过了 基本学习的能力, 这恰恰是大数据时代的优势。 也体现了相关关系的重要性。 与其说大数据让我们重视相关胜于因果, 不如说以结果为导向的思路让我们变成这样。 认为相关重于因果, 正如译者所言, 是实用主义作祟, 绝非大数据自身的诉求。 从小处讲, 作者试图避免的 错误前提导致错误结论 , 其解决之道正是挖掘因果逻辑而非相关性; 从大处讲,放弃对因果性的追求, 就是放弃了人类凌驾于机器之上的优势, 是人类自身的退步。 随着大数据时代各行业对数据分析需求的持续增加, 高效地获取知识,逐渐成为当今技术发展的主要推动力。 人们似乎更注重相关性, 大数据时代的学习更强调 学习本身是手段 , 只求结果不问过程。 这是很危险的。因此我认为, 在相关性日益显得重要的今天, 我们不应忽视因果关系的重要性。