大数据领域75个核心术语讲解！（下篇）

2020-12-31 12:05:01

相关推荐

本文是上一篇文章的续篇。我决定再介绍50个相关术语。这里是对上一篇文章所涵盖术语的简要回顾：算法，分析，描述性分析，预处理分析，预测性分析，批处理，Cassandra（大型分布式数据存储系统），云计算，集群计算，暗数据，数据湖，数据挖掘，数据科学家，分布式文件系统，ETL，Hadoop（用于开发和运行大规模数据处理的软件平台）以及内存物联网，机器学习，Mapreduce（Hadoop核心组件的混合物）），NoSQL（非关系数据库），r，Spark（计算引擎），流处理，结构化与非结构化数据。

让我们继续讲另外50个大数据术语。

Apache：软件基金会（ASF）为大数据提供了许多开源项目，目前有350多个项目。解释这些项目需要花费很多时间，因此我只选择并解释了一些流行的术语。

Apache Kafka：以捷克作家Kafka的名字命名，用于构建实时数据管道和流媒体应用程序。它之所以如此流行，是因为它可以以容错的方式存储，管理和处理数据流，而且据说它非常快。鉴于社交网络环境中的大量数据流处理，Kafka目前非常受欢迎。

Apache Mahout：Mahout提供了用于机器学习和数据挖掘的预制算法库，也可以用作创建更多算法的环境。换句话说，机器是学习极客的最佳环境。

Apache Oozie：在任何编程环境中，您都需要一些工作流系统以通过预定义的方式和定义的依赖项来安排和运行工作。 Oozie将其提供给Pig，MapReduce和Hive编写的大数据工作。

Apache演练，Apache Impala和Apache Spark SQL：这三个开源项目都提供快速且交互式的SQL，例如与Apache Hadoop数据的交互。如果您已经知道SQL并处理以大数据格式（即HBase或HDFS）存储的数据，这些功能将非常有用。抱歉，这有点奇怪。

Apache Hive：您知道SQL吗？如果您知道，则可以开始使用Hive。 Hive帮助使用SQL读取，写入和管理驻留在分布式存储中的大型数据集。

Apache Pig：Pig是一个用于在大型分布式数据集上创建，查询和执行例程的平台。使用的脚本语言称为Pig Latin（我绝对不是在胡说八道，相信我）。据说猪很容易理解和学习。但我怀疑能学到多少。

Apache Sqoop：一种用于将数据从Hadoop传输到非Hadoop数据存储（例如数据仓库和关系数据库）的工具。

Apache Storm：免费和开源的实时分布式计算系统。使用Hadoop进行批处理时，它更易于处理非结构化数据。

人工智能（AI）：为什么在这里使用AI？您可能会问，这不是一个单独的字段吗？所有这些技术趋势都是紧密联系在一起的，所以我们最好冷静下来并继续研究，对吧？ AI通过结合硬件和软件来开发智能机器和软件。这种硬件和软件的组合可以感知环境，在必要时采取必要的措施，并不断从这些措施中学习。听起来像机器学习吗？与我“混淆”。

行为分析：您是否考虑过Google如何为所需的产品/服务提供广告？行为分析的重点是理解消费者和应用程序的功能，以及它们如何以及为什么以某种方式工作。这包括了解我们的在线模式，社交媒体互动行为以及我们的在线购物活动（购物车等），连接这些不相关的数据点并尝试预测结果。例如，在我找到一家旅馆并清空购物车后，我接到了度假胜地度假区的电话。我还要说更多吗？

Bronto字节：1后面的27个零，这是未来数字世界中存储单元的大小。在这里，让我们谈谈TB，PB，Exabyte，Zetabyte，Yottabyte和Brontobyte。您必须阅读本文才能深入了解这些术语。

商业智能：我将重用Gartner对BI的定义，因为它的解释很清楚。商业智能是一个通用术语，包括应用程序，基础架构，工具和最佳实践。它可以访问和分析信息，以改善和优化决策和绩效。

生物识别技术：这项技术结合了James Bondish技术和分析技术，可以通过人体的一个或多个物理特征（例如面部识别，虹膜识别，指纹识别等）来识别人。

tic：用于在网络上浏览时分析用户的在线点击数据。您是否曾经想过，即使您切换网站，为什么有些Google广告仍然困扰着您？因为Google老板知道您要点击的内容。

聚类分析：这是一种探索性分析，试图识别数据结构，也称为分段分析或分类分析。更具体地说，它试图确定案件的同类组，即观察者，参与者和受访者。如果以前未知分组，则使用聚类分析来确定病例组。因为它是探索性的，所以可以区分因变量和自变量。 SPSS提供的不同聚类分析方法可以处理二进制，标称，序数和比例（间隔或比率）数据。

比较分析：由于大数据的关键在于分析，因此我将在本文中深入解释分析的重要性。顾名思义，比较分析使用统计技术（例如模式分析，过滤和决策树分析）来比较多个流程，数据集或其他对象。我知道它涉及的技术越来越少，但是我仍然无法完全避免使用术语。比较分析可用于医疗领域，通过比较大量的医疗记录，文件和图像，可以提供更有效和准确的医疗诊断。

连接分析：您必须看到一个蜘蛛网，就像一个将人们与主题联系起来的图表，以便确定特定主题的影响者。关联分析可以帮助发现网络中人员，产品，系统之间的联系和影响，甚至可以发现数据和多个网络的组合。

数据分析师：数据分析师是一项非常重要且受欢迎的工作。除准备报告外，它还负责收集，编辑和分析数据。我将撰写有关数据分析师的更详细的文章。

数据清理：顾名思义，数据清理包括检测和更正或删除数据库中不正确的数据或记录，然后记住“脏数据”。借助自动或手动工具和算法，数据分析人员可以更正并进一步丰富数据以提高数据质量。请记住，脏数据可能导致错误的分析和错误的决定。

数据即服务（DaaS）：我们有软件即服务（SaaS），平台即服务（PaaS），现在我们有DaaS，即数据即服务。通过为用户提供按需访问的云数据，DaaS提供商可以帮助我们快速获取高质量数据。

数据虚拟化：这是一种数据管理方法，允许应用程序提取和操作数据而无需了解技术细节（例如数据的存储位置和格式）。例如，社交网络使用此方法存储我们的照片。

脏数据：由于大数据是如此吸引人，人们开始在数据中添加其他形容词以形成新术语，例如现在的暗数据，脏数据，小数据和智能数据。脏数据是脏数据，换句话说，是不准确，重复和不一致的数据。显然，您不希望混淆脏数据。因此，请尽快更正。

模糊逻辑：我们已经对某件事确定了多少次，例如100％正确？非常稀有！我们的大脑将数据聚合为多个部分的事实被进一步抽象为可以确定我们决策的阈值。模糊逻辑就是这样一种计算方法，它与布尔代数等中的“ 0”和“ 1”相反，其目的是通过逐渐消除一些事实来模仿人的大脑。

游戏化：在典型的游戏中，您将拥有与得分相似的元素以与他人竞争，并且有明确的游戏规则。大数据游戏化就是利用这些概念来收集和分析数据或激励参与者。

图形数据库：图形数据使用节点和边的概念来表示人和企业及其关系，以便在社交媒体中挖掘数据。您是否曾经对亚马逊告诉您的有关购买商品时其他人正在购买的商品的信息感到惊讶？是的，这是图形数据库。

Hadoop用户体验／ Hue）：Hue是一个开放源代码界面，可以使使用Apache Hadoop更加容易。它是一个基于Web的应用程序。它具有分布式文件系统的文件浏览器。它具有MapReduce的任务设计；它具有Oozie框架，可以安排工作流程；它具有一个外壳，一个Impala，一个Hive UI和一组Hadoop API。

高性能分析应用程序（HANA）：这是由SAP设计用于大数据传输和分析的软件和硬件存储平台。

HBase：分布式的面向列的数据库。它使用HDFS作为其基础存储，该存储不仅支持使用MapReduce进行批处理，而且还支持使用事务交互进行批处理。

负载平衡：为了获得最佳结果并利用系统，负载被分配到多台计算机或服务器。

元数据：元数据是可以描述其他数据的数据。元数据总结了数据的基本信息，这使得查找和使用特定数据更加容易fic数据实例。例如，作者，创建日期，修改日期和数据大小是基本文档元数据。除文档文件外，元数据还用于图像，视频，电子表格和网页。

MongoDB：MongoDB是面向文本数据模型的跨平台开源数据库，而不是传统的基于表的关系数据库。这种数据库结构的主要设计目的是使结构化数据和非结构化数据在特定类型的应用程序中的集成更快，更容易。

混搭：幸运的是，该术语与我们日常生活中使用的“混搭”一词具有相似的含义，即混搭。本质上，mashup是一种将不同数据集组合到单个应用程序中的方法（例如，将房地产数据与地理位置数据和人口数据相结合）。这确实可以使可视化变得很酷。

多维数据库：这是为数据在线分析处理（OLAP）和数据仓库而优化的数据库。如果您不知道数据仓库是什么，我可以解释一下数据仓库仅此而已。它仅以集中方式存储来自多个数据源的数据。

MultiValue数据库：Multi-Value数据库是一个非关系数据库，可以直接理解3D数据，非常适合直接操作HTML和XML字符串。

自然语言处理（NLP）：NLP是一种软件算法，旨在使计算机更准确地理解人类的日常语言，从而使人们能够更自然有效地与计算机交互。

神经网络：根据此描述（http://neuralnetworksanddeeplearning.com/），神经网络是受生物学启发的非常漂亮的编程范例，可以使计算机从观察到的数据中学习。很长一段时间以来，没有人会说编程范例很漂亮。实际上，神经网络是现实生活中受脑生物学启发的模型。与神经网络密切相关的一个术语是深度学习。深度学习是神经网络中学习技术的集合。

模式识别：当算法需要确定大型数据集或不同数据集的回归或正则性时，就会发生模式识别。它与机器学习和数据挖掘紧密相关，甚至被认为与后两者同义。这种可见性可以帮助研究人员找到一些深刻的定律或得出一些可能被认为是荒谬的结论。

射频识别（RFID）：射频识别是一种使用非接触式射频电磁场传输数据的传感器。随着物联网的发展，RFID标签可以嵌入到任何可能的“事物”中，从而可以生成大量要分析的数据。欢迎来到数据世界。

软件即服务（SaaS）：软件即服务允许服务提供商在Internet上托管应用程序。 SaaS提供商在云中提供服务。

半结构化数据：半结构化数据是指未通过传统方法格式化的数据，例如与传统数据库或常用数据模型相关的数据字段。半结构化数据不是完全原始数据或完全非结构化数据，它可能包含一些数据表，标签或其他结构元素。半结构化数据的示例是图形，表格，XML文档和电子邮件。半结构化数据在万维网上非常流行，并且通常可以在面向对象的数据库中找到。

情感分析：情感分析包括捕获，跟踪和分析消费者在社交媒体，电话访谈和客户代表调查中各种类型的交互和文档中消费者表达的情感，情感和观点。文本分析和自然语言处理是情感分析过程中的典型技术。情感分析的目的是识别或评估对公司，产品，服务，人员或时间的态度或情感。

空间分析：空间分析是指对空间数据进行分析，以识别或了解分布在几何空间中的数据的模式和规律，包括几何数据和拓扑数据。

流处理：流处理旨在实时连续查询和处理“流数据”。为了以非常快的速度连续地对大量流数据进行实时数值计算和统计分析，对社交网络上的流数据进行流处理的需求是显而易见的。

智能数据：经过一些算法处理后，它是有用且可操作的数据。

TB：这是一个相对较大的数字数据单元，1TB等于1000GB。据估计，10 TB可以容纳国会图书馆的所有印刷材料，而1 TB可以容纳整个《不列颠百科全书》。

可视化：合理的可视化后，可以使用原始数据。当然，这里的可视化不仅仅是一个简单的图表。它是一个复杂的图表，可以包含许多数据变量，并且具有可读性和理解力和能力。

兆字节：接近1000兆字节，即2500万亿张DVD。现在，所有数字存储量约为1字节，并且这个数字将每18个月翻一番。 Zettabytes：接近1000 Exabyte，即10亿TB。

猜你喜欢：大数据领域75个核心术语讲解！(上篇)

01_hadoop分布式系统基础架构实战教程_hadoop简介_尚学堂

大数据基础学习：大数据架构的组成部分

阅读剩余内容

下篇领域核心术语大数据

大数据领域75个核心术语讲解！（下篇）

这个“隐世圣地” 远离喧嚣下篇

四部门联合倡导加速核心技术研发投资

大咖说：2017年我眼里的大数据领域惊喜

「封面文章｜服务设计品牌新力量下篇」全球视野中国底蕴

写作7课堂分享5——第一堂课“框架式写作”下篇