• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            chenglong7997

            Hadoop:從初出茅廬的小象變身行業(yè)巨人

            由于具備低成本和前所未有的高擴(kuò)展性,Hadoop已被公認(rèn)為是新一代的大數(shù)據(jù)處理平臺(tái)。就像30年前SQL(Structured Query Language)出現(xiàn)一樣,Hadoop正帶來了新一輪的數(shù)據(jù)革命。如今Hadoop已從初出茅廬的小象變成了行業(yè)的巨人,但Hadoop仍需繼續(xù)完善。

            基于Java語言構(gòu)建的Hadoop框架實(shí)際上一種分布式處理大數(shù)據(jù)平臺(tái),其包括軟件和眾多子項(xiàng)目。在近十年中Hadoop已成為大數(shù)據(jù)革命的中心。MapReduce作為Hadoop的核心是一種處理大型及超大型數(shù)據(jù)集(TB級(jí)別的數(shù)據(jù)。包括網(wǎng)絡(luò)點(diǎn)擊產(chǎn)生的流數(shù)據(jù)、日志文件、社交網(wǎng)絡(luò)等所帶來的數(shù)據(jù))并生成相關(guān)的執(zhí)行的編程模型。其主要思想是從函數(shù)式編程語言借鑒而來的,同時(shí)也包含了從矢量編程語言借鑒的特性。

            互聯(lián)網(wǎng)巨頭Yahoo!作為Hadoop框架的先驅(qū)研究者,在6年時(shí)間已經(jīng)將Hadoop塑造成了極為成功的技術(shù)。但相比于SQL,Hadoop在某些方面仍然顯得不夠完善。這直接導(dǎo)致現(xiàn)今所有目光都集中在Hadoop供應(yīng)商的身上。包括Amazon、Cloudera等公司帶來眾多的創(chuàng)新并提供強(qiáng)大的工具。Cloudera推出的CHD3包含眾多的附加軟件,可以幫助管理、運(yùn)行Hadoop上的復(fù)雜任務(wù),例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirr等。同時(shí)Cloudera也是目前最大的提供企業(yè)Hadoop技術(shù)支持和培訓(xùn)的廠商。而Amazon是較早在公共云中運(yùn)行Hadoop的公司,其提供的基于MapReduce的彈性計(jì)算可提供海量的數(shù)據(jù)計(jì)算服務(wù)。

            但數(shù)據(jù)處理只是大數(shù)據(jù)處理的一部分,組織最終想要得到的是經(jīng)過分析后的有價(jià)值的數(shù)據(jù)。商業(yè)智能和數(shù)據(jù)分析廠商如Datameer、Hadapt以及Karmasphere就顯的不可或缺。

            Hadoop在2011年證明自身的價(jià)值,最明顯的跡象就是五大數(shù)據(jù)庫管理軟件供應(yīng)商EMC、IBM、Informatica、Microsoft以及Oracle都投入了Hadoop的懷抱。EMC與MapR展開合作,而Microsoft和Oracle則分別與Hortonworks和Cloudera展開了合作。而EMC和Oracle已經(jīng)推出了Hadoop專有設(shè)備。下面就讓我們來看一下Hadoop在大數(shù)據(jù)領(lǐng)域都俘虜了那些公司的心。

            Amazon基于MapReduce的服務(wù)

            Amazon早在2009年就推出了基于Hadoop MapReduce的EC2(Elastic Compute Cloud)服務(wù)。因此Amazon在應(yīng)對(duì)用戶應(yīng)用和需求上顯得胸有成竹。無論是中小型企業(yè)還是超大型的組織,基于MapReduce的EC2服務(wù)都經(jīng)受住了考驗(yàn)。同時(shí)AWS(Amazon Web Service)還包括Amazon S3(Simple storage Service)。Amazon S3可提供高伸縮性、靠可靠性、高可用性以及極低的存儲(chǔ)成本。利用AWS可高效的處理數(shù)據(jù)密集型的任務(wù),如Web索引、數(shù)據(jù)挖掘、日志文件分析、機(jī)器學(xué)習(xí)以及科技和生物信息的學(xué)術(shù)研究。

            Cloudera提供安全的Hadoop平臺(tái)

            Cloudera也是比較早的大規(guī)模Hadoop軟件和服務(wù)提供商。Cloudera一直專注于將開源的Apache Hadoop完善成可靠的平臺(tái)。Cloudera目前擁有100多家客戶,并且在本月還與Oracle展開合作,共同進(jìn)軍大數(shù)據(jù)領(lǐng)域。

            在Cloudera提供了用于管理大數(shù)據(jù)的管理控制臺(tái)和負(fù)責(zé)管理Hadoop部署的工具以及企業(yè)級(jí)的支持。Cloudera的管理工具提供基于向?qū)降腍adoop安裝和配置菜單。同時(shí)提供相應(yīng)的工具,以幫助系統(tǒng)管理員監(jiān)控平臺(tái)的健康狀況、診斷問題、優(yōu)化性能,并進(jìn)行所需的配置和安全變更。而Cloudera的企業(yè)級(jí)支持與服務(wù)包括配置檢查、升級(jí)和與第三方系統(tǒng)集成以及其他技術(shù)資源。現(xiàn)今Cloudera管理軟件現(xiàn)在的價(jià)格是每節(jié)點(diǎn)每年4000美元(不包括硬件)。

            Datameer將大數(shù)據(jù)與商業(yè)智能有機(jī)結(jié)合

            Datameer宣稱其公司基于Hadoop平臺(tái)的產(chǎn)品方案DAS(Datameer Analytics Solution)非常適用于商業(yè)智能(BI)。Datameer可通過JDBC、Hive、Http連接任何的數(shù)據(jù)源。同時(shí)包括一個(gè)向?qū)?qū)動(dòng)集成平臺(tái),可安排負(fù)載并從任何結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的大數(shù)據(jù)集。Datameer的大數(shù)據(jù)分析解決方案通過表格接口整合Hadoop的數(shù)據(jù)挖掘能力。并通過REST API在私有云和公共云中輸入和輸出數(shù)據(jù)。

            EMC的統(tǒng)一數(shù)據(jù)分析平臺(tái)

            EMC推出用于支持大數(shù)據(jù)分析的平臺(tái)――EMC Greenplum統(tǒng)一分析平臺(tái)(UAP)。Greenplum UAP是一個(gè)唯一的統(tǒng)一數(shù)據(jù)分析平臺(tái),可擴(kuò)展至其他工具,其獨(dú)特之處在于,它將對(duì)大數(shù)據(jù)的認(rèn)知和分享貫穿整個(gè)分析過程,實(shí)現(xiàn)比以往更高的商業(yè)價(jià)值。UAP包括EMC Greenplum 關(guān)系數(shù)據(jù)庫、EMC Greenplum HD Hadoop以及EMC Greenplum Chorus。UAP就好比一個(gè)數(shù)據(jù)分析團(tuán)隊(duì),包括了從數(shù)據(jù)科學(xué)家和BI分析師到DBA和在線商業(yè)用戶和管理者。EMC針對(duì)硬件設(shè)備DCA(Data Computing Appliance),其足以運(yùn)行EMC Greenplum 關(guān)系數(shù)據(jù)庫和EMC Greenplum HD節(jié)點(diǎn)。DCA提供控制管理界面,方便管理人員監(jiān)視、管理Greenplum數(shù)據(jù)庫和Hadoop系統(tǒng)性能。

            Hadapt與Hadoop環(huán)境無縫集成

            Hive作為運(yùn)行在Hadoop上的數(shù)據(jù)倉庫組件并不像Hadoop那樣受人關(guān)注。而Hadapt則提供集眾多功能于一身的數(shù)據(jù)分析環(huán)境,旨在處理存在于Hadoop和SQL環(huán)境中傳統(tǒng)結(jié)構(gòu)化的數(shù)據(jù)。Hadapt平臺(tái)可運(yùn)行在私有云和公共云之上,并提供從一個(gè)環(huán)境訪問數(shù)據(jù)的能力。包括現(xiàn)有基于SQL的工具以及MapReduce處理和大數(shù)據(jù)分析。Hadapt自動(dòng)分開執(zhí)行Hadoop和關(guān)系數(shù)據(jù)庫之間的查詢,處分利用了Hadoop的高擴(kuò)展性和關(guān)系數(shù)據(jù)庫的高速性。

            Hortonworks繼承Yahoo! Hadoop衣缽

            Yahoo!在去年剝離了Hadoop業(yè)務(wù),并與硅谷風(fēng)投公司Benchmark Capital合資組建一家名為Hortonworks的公司。新公司包含在Yahoo!貢獻(xiàn)最大的50名工程師,旨在繼續(xù)推動(dòng)Hadoop的發(fā)展。Hortonworks高管斷言這支以Yahoo!開發(fā)團(tuán)隊(duì)為班底的公司將會(huì)貢獻(xiàn)更多的Hadoop代碼,并指引Hadoop平臺(tái)未來的發(fā)展。Hortonworks已在去年10月與微軟成為合作伙伴關(guān)系。Hortonworks可幫助Microsoft推出Windows平臺(tái)之上的Hadoop。Hortonworks在去年11月也推出了自由的HDP(Hortonworks Data Platform)V1,而結(jié)合了最新0.23版Hadoop的HDP V2將在2012年第一季度推出。Hortonworks還提供Hadoop的培訓(xùn)與支持,加強(qiáng)在這方面與Cloudera和MapR的競(jìng)爭(zhēng)。

            IBM的Hadoop之路

            IBM在多年以前就開始研究Hadoop。現(xiàn)今IBM提供基于云服務(wù)的海量數(shù)據(jù)分析方面多種方案的選擇,但目前IBM的策略似乎主要是圍繞Hadoop在發(fā)展。IBM在4月推出了其SmartCloud云計(jì)算平臺(tái)。并承諾改善Hadoop工作負(fù)載。IBM提供了基于Hadoop的InfoSphere BigInsights(IBM InfoSphere BigInsights是用于分析和虛擬化海量數(shù)據(jù)的軟件和服務(wù),這款新產(chǎn)品由 ApacheHadoop 提供技術(shù)支持。)基本版和企業(yè)版。 InfoSphere BigInsights之前作為IBM測(cè)試和開發(fā)的云產(chǎn)品,現(xiàn)在被SmartCloud取代。

            Informatica 向云更進(jìn)一步

            大多數(shù)的數(shù)據(jù)管理軟件供應(yīng)商(如IBM、Oracle、Syncsort、Talend)都涉及到Hadoop。Informatica在去年10月也推出了Hadoop環(huán)境下的數(shù)據(jù)編譯轉(zhuǎn)換解決方案――HParser。

            該方案可以運(yùn)行在幾乎所有的Apache Hadoop分布式環(huán)境中,與MapReduce架構(gòu)平行,能高效率地把無結(jié)構(gòu)的復(fù)雜數(shù)據(jù)――諸如網(wǎng)絡(luò)記錄、社交媒體數(shù)據(jù)、通話詳細(xì)記錄以及其他數(shù)據(jù)格式――轉(zhuǎn)換為Hadoop中結(jié)構(gòu)或半結(jié)構(gòu)格式。當(dāng)把數(shù)據(jù)轉(zhuǎn)化為更具結(jié)構(gòu)性的格式后,便可以得到更快速的使用和生效,從而驅(qū)動(dòng)業(yè)務(wù)發(fā)展、提高運(yùn)營效率。

            Karmasphere Hadoop數(shù)據(jù)分析利器

            Karmasphere提供了直接訪問Hadoop中結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)以及進(jìn)一步分析查詢的特性,同時(shí)Karmasphere還提供的可視化工作空間。Karmasphere提供的可視化工具提供了SQL或其他特定查詢語言分析位于Amazon S3、工作流以及本地文件系統(tǒng)上的結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)的特性。企業(yè)還可以使用數(shù)據(jù)庫或相關(guān)工具(例如Excel)來提取分析得出的數(shù)據(jù)。

            MapR帶來更高性能的Hadoop

            MapR在Hadoop的舞臺(tái)上顯得格外耀眼,其提供Hadoop非常獨(dú)特。MapR基于開源Hadoop,在只需有限硬件的環(huán)境中提供更快的Hadoop。同時(shí)Mapr配備了快照,并號(hào)稱不會(huì)出現(xiàn)SPOF單節(jié)點(diǎn)故障,且被認(rèn)為是與現(xiàn)有HDFS的API兼容。因此非常容易替換原有的系統(tǒng)。MapR最新的0.23版解決許多開源Hadoop的缺陷。而MapR與EMC的合作體現(xiàn)在了EMC Greenplum HD Enterprise Edition上,其就是基于MapR M5構(gòu)建的。

            Microsoft全面擁抱Hadoop

            當(dāng)EMC、IBM、Oracle都在2011年涉及Hadoop時(shí),Microsoft全面擁抱Hadoop的舉動(dòng)就顯得不足為奇了。而Hadoop的Windows Server將在在2012年推出,屆時(shí)其還會(huì)與微軟現(xiàn)有的BI工具聯(lián)合處理任務(wù)。去年微軟表示推出Windows Azure上的Hadoop預(yù)覽版,微軟還使Hadoop的數(shù)據(jù)通過部署在基于云的Windows Azure獲取。并使其能夠與企業(yè)的商業(yè)智能工具一起分析數(shù)據(jù)。微軟目前正與Hortonworks合作旨在努力簡(jiǎn)化下載、安裝和配置等幾個(gè)Hadoop的相關(guān)技術(shù)。包括HDFS、Hive、Pig。這將有利于企業(yè)通過Hadoop拓寬自身的業(yè)務(wù)。微軟將編寫新的ODBC驅(qū)動(dòng)程序并擴(kuò)展自己現(xiàn)有的查詢系統(tǒng)到Hive。這樣一來用戶將能夠直接從Excel、PowerView執(zhí)行Hadoop查詢。

            Oracle進(jìn)軍云計(jì)算

            Oracle在2011 Oracle全球大會(huì)上宣布推出了Oracle Big Data Appliance。Big Data Appliance是一個(gè)集成了Hadoop、NoSQL Database、Oracle數(shù)據(jù)庫Hadoop適配器、Oracle數(shù)據(jù)庫Hadoop裝載器及R語言的系統(tǒng)。Oracle還在今年1月與Cloudera成為合作伙伴關(guān)系。Oracle現(xiàn)已將Cloudera Distribution Including Apache Hadoop(CDH)和Cloudera Manager集成到Oracle大數(shù)據(jù)機(jī)之中。Oracle也將利用Cloudera在Hadoop領(lǐng)域的專業(yè)知識(shí)提供培訓(xùn)及咨詢業(yè)務(wù)。Oracle大數(shù)據(jù)機(jī)中運(yùn)行了Oracle Linux操作系統(tǒng),1個(gè)機(jī)架中包含18個(gè)Oracle-Sun服務(wù)器,共計(jì)216個(gè)核心,同時(shí)具備864GB的內(nèi)存和648TB的存儲(chǔ)能力,其售價(jià)為45萬美元。(李智/編譯)

            posted on 2012-04-09 01:53 Snape 閱讀(278) 評(píng)論(0)  編輯 收藏 引用 所屬分類: distributed system

            導(dǎo)航

            <2025年6月>
            25262728293031
            1234567
            891011121314
            15161718192021
            22232425262728
            293012345

            統(tǒng)計(jì)

            常用鏈接

            留言簿

            隨筆分類

            隨筆檔案

            文章分類

            文章檔案

            my

            搜索

            最新評(píng)論

            閱讀排行榜

            評(píng)論排行榜

            久久精品国产国产精品四凭| 国产亚洲成人久久| av色综合久久天堂av色综合在| 少妇无套内谢久久久久| 77777亚洲午夜久久多人| 国产精品久久国产精麻豆99网站| 亚洲国产精品久久久久婷婷老年| 久久精品亚洲欧美日韩久久| 国内精品伊人久久久久妇| 久久99国产综合精品免费| 日韩久久久久中文字幕人妻| 久久久久高潮毛片免费全部播放| 久久九九免费高清视频| 亚洲精品乱码久久久久久自慰 | 久久久久亚洲AV成人网| 精品久久久久久久久免费影院| 久久精品国产亚洲av日韩| 久久久久一级精品亚洲国产成人综合AV区| 热久久视久久精品18| 欧美日韩中文字幕久久伊人| 伊人久久大香线蕉综合网站| 久久777国产线看观看精品| AV无码久久久久不卡蜜桃| 久久综合精品国产一区二区三区 | 久久精品国产男包| 91久久香蕉国产熟女线看| 亚洲AV成人无码久久精品老人| 亚洲国产成人久久笫一页 | 亚洲色欲久久久综合网| 蜜臀久久99精品久久久久久| 亚洲一本综合久久| 久久99国产精品99久久 | 麻豆久久久9性大片| 精品久久久久久99人妻| 国产精品久久久久久| 国产成年无码久久久久毛片| 久久综合给合久久国产免费| 青草国产精品久久久久久| 久久夜色精品国产噜噜噜亚洲AV| 亚洲狠狠婷婷综合久久久久| 久久妇女高潮几次MBA|