• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            使用Python通過Hive的Streaming來寫UDF的一些記錄

                  最近使用Hive來統(tǒng)計數(shù)據(jù),用了pyhs2來實(shí)現(xiàn)查詢,但是有些復(fù)雜的處理比如,自定義對域名的處理等,不能通過hql來實(shí)現(xiàn),發(fā)現(xiàn)能夠使用udf。

                  Java來實(shí)現(xiàn)Hive的寫法 

            package jsl.hive.udf;

            import org.apache.hadoop.hive.ql.exec.UDF;
            import org.apache.hadoop.io.Text;

            public final class DomainRoot extends UDF {
                public Text evaluate(Text s) {
                    if (s == null) {return null;}
                    String tmp = s.toString();
                    tmp = this.getDomainRoot(tmp);
                    return new Text(tmp);
                }   

                private String getDomainRoot(String domain) {
                    throw NoneImplementException("xxxx");
                }   
            }

            如果Java的UDF需要當(dāng)成常用的,不用每次add可以注冊到Hive中,
            ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.java中加入
            registerUDF("domain_root", UDFParseUrl.class, false);并重新編譯hive即可


               下面來說說重點(diǎn),通過Streaming用Python來寫處理。
               關(guān)于Streaming的基礎(chǔ)內(nèi)容:

               約束:首先必須add file到hive中(當(dāng)python中引用了其他如自己寫的模塊時,也需要一并add進(jìn)去)
                        其次非常不幸,在單獨(dú)的一個查詢中,不能夠使用UDAF的函數(shù)如sum()
                        再次不得為中間結(jié)果數(shù)據(jù)使用cluster by或distribute by

            注意:對于優(yōu)化查詢,使用cluster by或distribute by 和sort by一起非常重要

            posted on 2014-09-12 11:41 Hallelujah 閱讀(2107) 評論(0)  編輯 收藏 引用


            只有注冊用戶登錄后才能發(fā)表評論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


            <2014年10月>
            2829301234
            567891011
            12131415161718
            19202122232425
            2627282930311
            2345678

            導(dǎo)航

            統(tǒng)計

            常用鏈接

            留言簿(1)

            隨筆分類(15)

            隨筆檔案(14)

            最新隨筆

            搜索

            最新隨筆

            最新評論

            閱讀排行榜

            評論排行榜

            久久综合综合久久狠狠狠97色88| 亚洲精品tv久久久久久久久 | 2020久久精品亚洲热综合一本 | 91精品国产综合久久精品| 久久99精品久久久久久噜噜| 2020国产成人久久精品| 久久99国产精品久久99| 久久久久久久久久久精品尤物| 久久精品国产亚洲欧美| 色欲久久久天天天综合网| 99久久精品费精品国产| 久久发布国产伦子伦精品| 色播久久人人爽人人爽人人片aV| 久久精品国产久精国产| 亚洲AV无码久久精品蜜桃| 香蕉久久夜色精品国产2020| 国内精品久久久久久久亚洲| 久久久免费精品re6| 久久精品极品盛宴观看| 久久久无码精品午夜| 久久久精品午夜免费不卡| 久久综合狠狠综合久久| 亚洲午夜无码久久久久| 久久笫一福利免费导航| 国产精品欧美久久久久无广告| 精品水蜜桃久久久久久久| 久久亚洲精品无码VA大香大香| 精品人妻伦九区久久AAA片69| 99久久精品国产免看国产一区| 久久久无码精品亚洲日韩按摩| 亚洲欧美成人综合久久久 | 久久性精品| 久久精品亚洲精品国产欧美| 久久精品女人天堂AV麻| 国产福利电影一区二区三区久久久久成人精品综合 | www.久久热.com| 91精品国产91久久久久福利| 精品久久777| 久久久精品无码专区不卡| 久久久久国产成人精品亚洲午夜| 久久久久人妻一区精品|