cdh功能指标技术指标_cloudera集群维护主要看什么指标

1. cdh5 flume只是从kafka接收数据么

1，hadoop是大数据分析的完整生态系统，从数据采集，存储，分析，转运，再到页面展示，构成了整个流程采集可以用flume，存储用hbase，hdfs，mangodb就相当于hbase，分析用Maprece自己写算法，还有hive做数据仓库，pig做数据流处理，转储方面有sqoop，可以将hdfs中的数据转换存储到mysql，oracle等传统数据库，这就构成了一整套大数据分析的整个流程2，mangodb只是充当存储功能，是一款nosql数据库，支持以json的格式存储3，所以从功能上来讲，hadoop和mangodb是不一样的，hadoop中可以用mangodb替换hbase，但是mangodb不能替换hadoop，一个是完整的生态系统，一个是数据库，两个不一样的概念4，至于选择用mangodb还是hbase，各有优劣，不过使用较多的还是hbase，mangodb社区没有hbase活跃，所以还是hbase吧

2. Cloudera Hadoop什么是CDH及CDH版本介绍

Cloudera Hadoop是Cloudera发布的Hadoop版本。

1.由于Hadoop非常受客户欢迎，许多公司都推出了自己的Hadoop版本，一些公司也围绕Hadoop开发了产品。在Hadoop生态系统中，Cloudera是最大最著名的公司。

2.到目前为止，CDH共有五个版本，其中前两个版本已经不再更新，最近的两个是CDH5，它是从Apache Hadoopversion2．0．0演变而来的。CDH5将每隔一段时间更新一次。

(2)cdh功能指标技术指标扩展阅读：

Cloudera Hadoop版本介绍：

1.Hadoop是一个开源项目，所以很多公司都在这个基础上进行商业化，Cloudera对Hadoop做了相应的改动。Cloudera的发行版，我们称之为CDH（clouderadistributionHadoop）。

2.Cloudera将patch level划分为更小的版本。例如，如果修补程序级别为923.142，则在原来生态Apache Hadoop 0.20.2的基础上添加了1065个patch，其中923个是上一个beta版本中添加的patch，142个是稳定版本发布后新添加的patch。

参考资料来源：网络-Cloudera

3. CDHC卡和SDXCUHS—1卡一样吗

一种存储卡，SD新标准。
特点及技术指标：
(1) SDXC 存储卡的目前最大容量可达 64GB。理论容量是2TB (2) 支持UHS 104，一种新的超高速SD接口规格，新SD存储卡标准Ver.3.00种的最高标准，其在SD接口上实现每秒104MB的总线传输速度，从而可实现每秒 35MB 的最大写入速度和每秒 60MB 的最大读取速度。 (3) UHS104提供传统的SD接口-- 3.3V DS (25MHz)/ HS (50MHz)，支持UHS104的新SDHC存储卡和现有的SDHC对应设备相兼容。 (4) SDXC存储卡只和装有exFAT文件系统的SDXC对应设备相兼容。它不能用于SD或SDHC对应设备。 (5) 采用最可靠的CPRM 版权保护技术。 (6)UHS104是一种新的超高速接口规格，数据总线传输速率为每秒104MB。这是SD新存储卡标准Ver.3.00中的最高标准。 (7)SDXC 存储卡是 SD 协会于 2009 年 4 月定义的下一代SD存储卡标准，为满足大容量存储媒体的不断增长的需求，为丰富的存储应用提供更快的数据传输速率。新SDXC存储卡标准和提供4GB到32GB容量的SDHC存储卡标准相比，其所实现的容量可超越32GB，最大可达 2TB（TB：terabyte，万亿字节，1TB=1024GB）。

4. 如何查看cdh hadoop版本信息

hadoop是一个开源项目，所以很多公司在这个基础进行商业化，Cloudera对hadoop做了相应的改变。

Cloudera公司的发行版，我们将该版本称为CDH(Cloudera Distribution
Hadoop)。截至目前为止，CDH共有5个版本，其中，前两个已经不再更新，最近的两个，分别是CDH4在Apache Hadoop 2.0.0版本基础上演化而来的)，CDH5，它们每隔一段时间便会更新一次。

Cloudera以patch level划分小版本，比如patch level为923.142表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch(这些patch是各个公司或者个人贡献的，在Hadoop jira上均有记录)，其中923个是最后一个beta版本添加的patch，而142个是稳定版发行后新添加的patch。由此可见，patch level越高，功能越完备且解决的bug越多。

Cloudera版本层次更加清晰，且它提供了适用于各种操作系统的Hadoop安装包，可直接使用apt-get或者yum命令进行安装，更加省事。

5. cloudera集群维护主要看什么指标

6. cdh parcel包安装怎么卸载

1）你可以在控制面板——程序和功能里面点击卸载，如果还是卸载不掉的话，那推荐你用卸载能力很强的腾讯电脑管家，管家管理页——软件管理——卸载——选择软件确认卸载就可以了，如果有顽固项残留项管家会提醒你进行清理。
2）注册表卸载软件：开始菜单→运行，然后在运行窗口中输入：Regedit，打开注册表，找到主键：HKEY_LOCAL_MACHINE＼Software＼Microsoft＼Windows＼CurrentVersion＼Uninstall，此键下面列出了所有曾经安装过的软件安装信息以及卸载信息，点击下面的任何一个键，都会包括一个UninstallString的字符串键，此键的值就是程序的反安装程序的路径，打开此键，将键值拷入到“运行”窗口，点击运行就会启动此软件的卸载程序，接着按部就班完成即可

7. Apache，CDH和Cloudera三者有什么区别

亲，很高兴为您解答，

Hortonworks Hadoop区别于其他的Hadoop发行版(如Cloudera)的根本就在于，Hortonworks的产品均是百分之百开源。
Cloudera有免费版和企业版，企业版只有试用期。
apache hadoop则是原生的hadoop。

目前在中国流行的是apache hadoop，Cloudera CDH，当然Hortonworks也有用的

Apache Ambari是一个基于web的工具，用于配置、管理和监视Apache Hadoop集群，支持Hadoop HDFS,、Hadoop MapRece、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘，比如heatmaps和查看MapRece、Pig、Hive应用程序的能力，以友好的用户界面对它们的性能特性进行诊断。希望能帮助到您，望采纳！

8. 部署Hadoop集群，cloudera的CDH和Ambari哪个比较好

1、Hortonworks Hadoop区别于其他的Hadoop发行版(如Cloudera)的根本就在于，Hortonworks的产品均是百分之百开源。
2、Cloudera有免费版和企业版，企业版只有试用期。
3、apache hadoop则是原生的hadoop。
4、目前在中国流行的是apache hadoop，Cloudera CDH，当然Hortonworks也有用的
5、Apache Ambari是一个基于web的工具，用于配置、管理和监视Apache Hadoop集群，支持Hadoop HDFS,、Hadoop MapRece、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘，比如heatmaps和查看MapRece、Pig、Hive应用程序的能力，以友好的用户界面对它们的性能特性进行诊断。

Ambari你值得拥有

1、通过一步一步的安装向导简化了集群供应。
2、预先配置好关键的运维指标（metrics），可以直接查看Hadoop Core（HDFS和MapRece）及相关项目（如HBase、Hive和HCatalog）是否健康。
3、支持作业与任务执行的可视化与分析，能够更好地查看依赖和性能。
4、通过一个完整的RESTful API把监控信息暴露出来，集成了现有的运维工具。
5、用户界面非常直观，用户可以轻松有效地查看信息并控制集群。

9. Cloudera的CDH和Apache的Hadoop的区别

目前而言，不收费的Hadoop版本主要有三个(均是国外厂商)，分别是：Apache(最原始的版本，所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop，简称CDH)、Hortonworks版本(Hortonworks Data Plat..

10. 为什么cdh 放弃了 spark-sql命令

一、启动方法
/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2

注：/data/spark-1.4.0-bin-cdh4/为spark的安装路径

/data/spark-1.4.0-bin-cdh4/bin/spark-sql –help 查看启动选项

--master MASTER_URL 指定master url
--executor-memory MEM 每个executor的内存，默认为1G
--total-executor-cores NUM 所有executor的总核数
-e <quoted-query-string> 直接执行查询SQL

-f <filename> 以文件方式批量执行SQL

二、Spark sql对hive支持的功能

1、查询语句：SELECT GROUP BY ORDER BY CLUSTER BY SORT BY
2、hive操作运算：
1) 关系运算：= ==, <>, <, >, >=, <=
2) 算术运算：+, -, *, /, %
3) 逻辑运算：AND, &&, OR, ||
4) 复杂的数据结构
5) 数学函数：(sign, ln, cos, etc)
6) 字符串函数：
3、 UDF
4、 UDAF

5、用户定义的序列化格式
6、join操作：JOIN {LEFT|RIGHT|FULL} OUTER JOIN LEFT SEMI JOIN CROSS JOIN
7、 unions操作：
8、子查询： SELECT col FROM ( SELECT a + b AS col from t1) t2
9、Sampling
10、 Explain
11、分区表
12、视图
13、 hive ddl功能：CREATE TABLE、CREATE TABLE AS SELECT、ALTER TABLE

14、支持的数据类型：TINYINT SMALLINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING BINARY TIMESTAMPDATE ARRAY MAP STRUCT

三、Spark sql 在客户端编程方式进行查询数据
1、启动spark-shell
./spark-shell --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2
2、编写程序
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val df = sqlContext.read.json("../examples/src/main/resources/people.json")
查看所有数据：df.show()
查看表结构：df.printSchema()
只看name列：df.select("name").show()
对数据运算：df.select(df("name"), df("age") + 1).show()
过滤数据：df.filter(df("age") > 21).show()

分组统计：df.groupBy("age").count().show()

1、查询txt数据
import sqlContext.implicits._
case class Person(name: String, age: Int)
val people = sc.textFile("../examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable("people")
val teenagers = sqlContext.sql("SELECT name, age FROM people WHERE age >= 13 AND age <= 19")
2、parquet文件
val df = sqlContext.read.load("../examples/src/main/resources/users.parquet")
3、hdfs文件

val df = sqlContext.read.load("hdfs://namenode.Hadoop:9000/user/hive/warehouse/spark_test.db/test_parquet/part-r-00001.gz.parquet")
4、保存查询结果数据
val df = sqlContext.read.load("../examples/src/main/resources/users.parquet")

df.select("name", "favorite_color").write.save("namesAndFavColors.parquet“)

四、Spark sql性能调优

缓存数据表：sqlContext.cacheTable("tableName")

取消缓存表：sqlContext.uncacheTable("tableName")

spark.sql.inMemoryColumnarStorage.compressedtrue当设置为true时，Spark SQL将为基于数据统计信息的每列自动选择一个压缩算法。
spark.sql.inMemoryColumnarStorage.batchSize10000柱状缓存的批数据大小。更大的批数据可以提高内存的利用率以及压缩效率，但有OOMs的风险

导航:首页 > 股市基金 > cdh功能指标技术指标

cdh功能指标技术指标

与cdh功能指标技术指标相关的资料