Spark在百度

Spark在百度甄鵬

  甄鵬表示,當(dāng)前百度的Spark集群由上千臺(tái)物理主機(jī)(數(shù)萬Cores,上百TBMemory)組成,日提交App在數(shù)百,已應(yīng)用于鳳巢、大搜索、直達(dá)號(hào)、百度大數(shù)據(jù)等業(yè)務(wù)。之以選擇Spark,甄鵬總結(jié)了三個(gè)原因:快速高效、API 友好易用和組件豐富。

  快速高效。首先,Spark使用了線程池模式,任務(wù)調(diào)度效率很高;其次,Spark可以最大限度地利用內(nèi)存,多輪迭代任務(wù)執(zhí)行效率高。

  API友好易用。這主要基于兩個(gè)方面:第一,Spark支持多門編程語言,可以滿足不同語言背景的人使用;第二,Spark的表達(dá)能力非常豐富,并且封裝了大量常用操作。

  組件豐富。Spark生態(tài)圈當(dāng)下已比較完善,在官方組件涵蓋SQL、圖計(jì)算、機(jī)器學(xué)習(xí)和實(shí)時(shí)計(jì)算的同時(shí),還有著很多第三方開發(fā)的優(yōu)秀組件,足以應(yīng)對(duì)日常的數(shù)據(jù)處理需求。

  百度開放云BMR

  在BMR介紹中,甄鵬表示,雖然BMR被稱為Baidu MapReduce,但是這個(gè)名稱已經(jīng)不能完全表示出這個(gè)平臺(tái):BMR是百度開放云的數(shù)據(jù)分析服務(wù)產(chǎn)品,基于百度多年大數(shù)據(jù)處理分析經(jīng)驗(yàn),面向企業(yè)和開發(fā)者提供按需部署的Hadoop&Spark集群計(jì)算服務(wù),讓客戶具備海量數(shù)據(jù)分析和挖掘能力,從而提升業(yè)務(wù)競(jìng)爭(zhēng)力。

BMR基于BCC(百度云服務(wù)器)

  如圖所示,BMR基于BCC(百度云服務(wù)器),建立在HDFS和BOS(百度對(duì)象存儲(chǔ))分布式存儲(chǔ)之上,其處理引擎包含了MapReduce和Spark,同時(shí)還使用了HBase數(shù)據(jù)庫(kù)。在此之上,系統(tǒng)集成了Pig、Hive、SQL、Streaming、GraphX、MLLib等專有服務(wù)。在系統(tǒng)的最上層,BMR提供了一個(gè)基于Web的控制臺(tái),以及一個(gè)API形式的SDK。

  在圖片的最右邊,Scheduler在BMR中起到了管理作用,使用它開發(fā)者可以編寫比較復(fù)雜的作業(yè)流。

  Spark On BMR

  類似于通常的云服務(wù),BMR中的Spark同樣隨用隨起,集群空閑即銷毀,幫助用戶節(jié)省預(yù)算。此外,集群創(chuàng)建可以在3到5分鐘內(nèi)完成,包含了完整的Spark+HDFS+YARN堆棧。同時(shí),BMR也提供Long Running模式,并有多種套餐可選。

Spark On BMR

  完善的報(bào)表服務(wù),全方位監(jiān)控

  在安全上,用戶擁有虛擬的獨(dú)立網(wǎng)絡(luò),在同一用戶全部集群可互聯(lián)的同時(shí),BMR用戶間網(wǎng)絡(luò)被完全隔離。同時(shí),BMR還支持動(dòng)態(tài)擴(kuò)容,節(jié)點(diǎn)規(guī)??蓮椥陨炜s。除此之外,在實(shí)現(xiàn)Spark全組件支持的同時(shí),BMR可無縫對(duì)接百度的對(duì)象存儲(chǔ)BOS服務(wù),借力百度多年的存儲(chǔ)研發(fā)經(jīng)驗(yàn),保證數(shù)據(jù)存儲(chǔ)的高可靠性。

責(zé)任編輯:admin