cdh功能指標技術指標_cloudera集群維護主要看什麼指標

1. cdh5 flume只是從kafka接收數據么

1，hadoop是大數據分析的完整生態系統，從數據採集，存儲，分析，轉運，再到頁面展示，構成了整個流程採集可以用flume，存儲用hbase，hdfs，mangodb就相當於hbase，分析用Maprece自己寫演算法，還有hive做數據倉庫，pig做數據流處理，轉儲方面有sqoop，可以將hdfs中的數據轉換存儲到mysql，oracle等傳統資料庫，這就構成了一整套大數據分析的整個流程2，mangodb只是充當存儲功能，是一款nosql資料庫，支持以json的格式存儲3，所以從功能上來講，hadoop和mangodb是不一樣的，hadoop中可以用mangodb替換hbase，但是mangodb不能替換hadoop，一個是完整的生態系統，一個是資料庫，兩個不一樣的概念4，至於選擇用mangodb還是hbase，各有優劣，不過使用較多的還是hbase，mangodb社區沒有hbase活躍，所以還是hbase吧

2. Cloudera Hadoop什麼是CDH及CDH版本介紹

Cloudera Hadoop是Cloudera發布的Hadoop版本。

1.由於Hadoop非常受客戶歡迎，許多公司都推出了自己的Hadoop版本，一些公司也圍繞Hadoop開發了產品。在Hadoop生態系統中，Cloudera是最大最著名的公司。

2.到目前為止，CDH共有五個版本，其中前兩個版本已經不再更新，最近的兩個是CDH5，它是從Apache Hadoopversion2．0．0演變而來的。CDH5將每隔一段時間更新一次。

(2)cdh功能指標技術指標擴展閱讀：

Cloudera Hadoop版本介紹：

1.Hadoop是一個開源項目，所以很多公司都在這個基礎上進行商業化，Cloudera對Hadoop做了相應的改動。Cloudera的發行版，我們稱之為CDH（clouderadistributionHadoop）。

2.Cloudera將patch level劃分為更小的版本。例如，如果修補程序級別為923.142，則在原來生態Apache Hadoop 0.20.2的基礎上添加了1065個patch，其中923個是上一個beta版本中添加的patch，142個是穩定版本發布後新添加的patch。

參考資料來源：網路-Cloudera

3. CDHC卡和SDXCUHS—1卡一樣嗎

一種存儲卡，SD新標准。
特點及技術指標：
(1) SDXC 存儲卡的目前最大容量可達 64GB。理論容量是2TB (2) 支持UHS 104，一種新的超高速SD介面規格，新SD存儲卡標准Ver.3.00種的最高標准，其在SD介面上實現每秒104MB的匯流排傳輸速度，從而可實現每秒 35MB 的最大寫入速度和每秒 60MB 的最大讀取速度。 (3) UHS104提供傳統的SD介面-- 3.3V DS (25MHz)/ HS (50MHz)，支持UHS104的新SDHC存儲卡和現有的SDHC對應設備相兼容。 (4) SDXC存儲卡只和裝有exFAT文件系統的SDXC對應設備相兼容。它不能用於SD或SDHC對應設備。 (5) 採用最可靠的CPRM 版權保護技術。 (6)UHS104是一種新的超高速介面規格，數據匯流排傳輸速率為每秒104MB。這是SD新存儲卡標准Ver.3.00中的最高標准。 (7)SDXC 存儲卡是 SD 協會於 2009 年 4 月定義的下一代SD存儲卡標准，為滿足大容量存儲媒體的不斷增長的需求，為豐富的存儲應用提供更快的數據傳輸速率。新SDXC存儲卡標准和提供4GB到32GB容量的SDHC存儲卡標准相比，其所實現的容量可超越32GB，最大可達 2TB（TB：terabyte，萬億位元組，1TB=1024GB）。

4. 如何查看cdh hadoop版本信息

hadoop是一個開源項目，所以很多公司在這個基礎進行商業化，Cloudera對hadoop做了相應的改變。

Cloudera公司的發行版，我們將該版本稱為CDH(Cloudera Distribution
Hadoop)。截至目前為止，CDH共有5個版本，其中，前兩個已經不再更新，最近的兩個，分別是CDH4在Apache Hadoop 2.0.0版本基礎上演化而來的)，CDH5，它們每隔一段時間便會更新一次。

Cloudera以patch level劃分小版本，比如patch level為923.142表示在原生態Apache Hadoop 0.20.2基礎上添加了1065個patch(這些patch是各個公司或者個人貢獻的，在Hadoop jira上均有記錄)，其中923個是最後一個beta版本添加的patch，而142個是穩定版發行後新添加的patch。由此可見，patch level越高，功能越完備且解決的bug越多。

Cloudera版本層次更加清晰，且它提供了適用於各種操作系統的Hadoop安裝包，可直接使用apt-get或者yum命令進行安裝，更加省事。

5. cloudera集群維護主要看什麼指標

6. cdh parcel包安裝怎麼卸載

1）你可以在控制面板——程序和功能裡面點擊卸載，如果還是卸載不掉的話，那推薦你用卸載能力很強的騰訊電腦管家，管家管理頁——軟體管理——卸載——選擇軟體確認卸載就可以了，如果有頑固項殘留項管家會提醒你進行清理。
2）注冊表卸載軟體：開始菜單→運行，然後在運行窗口中輸入：Regedit，打開注冊表，找到主鍵：HKEY_LOCAL_MACHINE＼Software＼Microsoft＼Windows＼CurrentVersion＼Uninstall，此鍵下面列出了所有曾經安裝過的軟體安裝信息以及卸載信息，點擊下面的任何一個鍵，都會包括一個UninstallString的字元串鍵，此鍵的值就是程序的反安裝程序的路徑，打開此鍵，將鍵值拷入到「運行」窗口，點擊運行就會啟動此軟體的卸載程序，接著按部就班完成即可

7. Apache，CDH和Cloudera三者有什麼區別

親，很高興為您解答，

Hortonworks Hadoop區別於其他的Hadoop發行版(如Cloudera)的根本就在於，Hortonworks的產品均是百分之百開源。
Cloudera有免費版和企業版，企業版只有試用期。
apache hadoop則是原生的hadoop。

目前在中國流行的是apache hadoop，Cloudera CDH，當然Hortonworks也有用的

Apache Ambari是一個基於web的工具，用於配置、管理和監視Apache Hadoop集群，支持Hadoop HDFS,、Hadoop MapRece、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀表盤，比如heatmaps和查看MapRece、Pig、Hive應用程序的能力，以友好的用戶界面對它們的性能特性進行診斷。希望能幫助到您，望採納！

8. 部署Hadoop集群，cloudera的CDH和Ambari哪個比較好

1、Hortonworks Hadoop區別於其他的Hadoop發行版(如Cloudera)的根本就在於，Hortonworks的產品均是百分之百開源。
2、Cloudera有免費版和企業版，企業版只有試用期。
3、apache hadoop則是原生的hadoop。
4、目前在中國流行的是apache hadoop，Cloudera CDH，當然Hortonworks也有用的
5、Apache Ambari是一個基於web的工具，用於配置、管理和監視Apache Hadoop集群，支持Hadoop HDFS,、Hadoop MapRece、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀表盤，比如heatmaps和查看MapRece、Pig、Hive應用程序的能力，以友好的用戶界面對它們的性能特性進行診斷。

Ambari你值得擁有

1、通過一步一步的安裝向導簡化了集群供應。
2、預先配置好關鍵的運維指標（metrics），可以直接查看Hadoop Core（HDFS和MapRece）及相關項目（如HBase、Hive和HCatalog）是否健康。
3、支持作業與任務執行的可視化與分析，能夠更好地查看依賴和性能。
4、通過一個完整的RESTful API把監控信息暴露出來，集成了現有的運維工具。
5、用戶界面非常直觀，用戶可以輕松有效地查看信息並控制集群。

9. Cloudera的CDH和Apache的Hadoop的區別

目前而言，不收費的Hadoop版本主要有三個(均是國外廠商)，分別是：Apache(最原始的版本，所有發行版均基於這個版本進行改進)、Cloudera版本(Cloudera』s Distribution Including Apache Hadoop，簡稱CDH)、Hortonworks版本(Hortonworks Data Plat..

10. 為什麼cdh 放棄了 spark-sql命令

一、啟動方法
/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2

註：/data/spark-1.4.0-bin-cdh4/為spark的安裝路徑

/data/spark-1.4.0-bin-cdh4/bin/spark-sql –help 查看啟動選項

--master MASTER_URL 指定master url
--executor-memory MEM 每個executor的內存，默認為1G
--total-executor-cores NUM 所有executor的總核數
-e <quoted-query-string> 直接執行查詢SQL

-f <filename> 以文件方式批量執行SQL

二、Spark sql對hive支持的功能

1、查詢語句：SELECT GROUP BY ORDER BY CLUSTER BY SORT BY
2、hive操作運算：
1) 關系運算：= ==, <>, <, >, >=, <=
2) 算術運算：+, -, *, /, %
3) 邏輯運算：AND, &&, OR, ||
4) 復雜的數據結構
5) 數學函數：(sign, ln, cos, etc)
6) 字元串函數：
3、 UDF
4、 UDAF

5、用戶定義的序列化格式
6、join操作：JOIN {LEFT|RIGHT|FULL} OUTER JOIN LEFT SEMI JOIN CROSS JOIN
7、 unions操作：
8、子查詢： SELECT col FROM ( SELECT a + b AS col from t1) t2
9、Sampling
10、 Explain
11、分區表
12、視圖
13、 hive ddl功能：CREATE TABLE、CREATE TABLE AS SELECT、ALTER TABLE

14、支持的數據類型：TINYINT SMALLINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING BINARY TIMESTAMPDATE ARRAY MAP STRUCT

三、Spark sql 在客戶端編程方式進行查詢數據
1、啟動spark-shell
./spark-shell --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2
2、編寫程序
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val df = sqlContext.read.json("../examples/src/main/resources/people.json")
查看所有數據：df.show()
查看錶結構：df.printSchema()
只看name列：df.select("name").show()
對數據運算：df.select(df("name"), df("age") + 1).show()
過濾數據：df.filter(df("age") > 21).show()

分組統計：df.groupBy("age").count().show()

1、查詢txt數據
import sqlContext.implicits._
case class Person(name: String, age: Int)
val people = sc.textFile("../examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable("people")
val teenagers = sqlContext.sql("SELECT name, age FROM people WHERE age >= 13 AND age <= 19")
2、parquet文件
val df = sqlContext.read.load("../examples/src/main/resources/users.parquet")
3、hdfs文件

val df = sqlContext.read.load("hdfs://namenode.Hadoop:9000/user/hive/warehouse/spark_test.db/test_parquet/part-r-00001.gz.parquet")
4、保存查詢結果數據
val df = sqlContext.read.load("../examples/src/main/resources/users.parquet")

df.select("name", "favorite_color").write.save("namesAndFavColors.parquet「)

四、Spark sql性能調優

緩存數據表：sqlContext.cacheTable("tableName")

取消緩存表：sqlContext.uncacheTable("tableName")

spark.sql.inMemoryColumnarStorage.compressedtrue當設置為true時，Spark SQL將為基於數據統計信息的每列自動選擇一個壓縮演算法。
spark.sql.inMemoryColumnarStorage.batchSize10000柱狀緩存的批數據大小。更大的批數據可以提高內存的利用率以及壓縮效率，但有OOMs的風險

導航:首頁 > 股市基金 > cdh功能指標技術指標

cdh功能指標技術指標

與cdh功能指標技術指標相關的資料