<span id="mktg5"></span>

<i id="mktg5"><meter id="mktg5"></meter></i>

        <label id="mktg5"><meter id="mktg5"></meter></label>
        最新文章專題視頻專題問答1問答10問答100問答1000問答2000關(guān)鍵字專題1關(guān)鍵字專題50關(guān)鍵字專題500關(guān)鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關(guān)鍵字專題關(guān)鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
        問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
        當(dāng)前位置: 首頁 - 科技 - 知識(shí)百科 - 正文

        如何拓展Hadoop的InputFormat為其他分隔符

        來源:懂視網(wǎng) 責(zé)編:小采 時(shí)間:2020-11-09 12:59:15
        文檔

        如何拓展Hadoop的InputFormat為其他分隔符

        如何拓展Hadoop的InputFormat為其他分隔符:在Hadoop中,常用的TextInputFormat是以換行符作為Record分隔符的。 在實(shí)際應(yīng)用中,我們經(jīng)常會(huì)出現(xiàn)一條Record中包含多行的情況,例如: doc..../doc 此時(shí),需要拓展TextInputFormat以完成這個(gè)功能。 先來看一下原始實(shí)現(xiàn): public class Tex
        推薦度:
        導(dǎo)讀如何拓展Hadoop的InputFormat為其他分隔符:在Hadoop中,常用的TextInputFormat是以換行符作為Record分隔符的。 在實(shí)際應(yīng)用中,我們經(jīng)常會(huì)出現(xiàn)一條Record中包含多行的情況,例如: doc..../doc 此時(shí),需要拓展TextInputFormat以完成這個(gè)功能。 先來看一下原始實(shí)現(xiàn): public class Tex

        在Hadoop中,常用的TextInputFormat是以換行符作為Record分隔符的。 在實(shí)際應(yīng)用中,我們經(jīng)常會(huì)出現(xiàn)一條Record中包含多行的情況,例如: doc..../doc 此時(shí),需要拓展TextInputFormat以完成這個(gè)功能。 先來看一下原始實(shí)現(xiàn): public class TextInputFormat exte

        在Hadoop中,常用的TextInputFormat是以換行符作為Record分隔符的。

        在實(shí)際應(yīng)用中,我們經(jīng)常會(huì)出現(xiàn)一條Record中包含多行的情況,例如:

        
        ....
        

        此時(shí),需要拓展TextInputFormat以完成這個(gè)功能。

        先來看一下原始實(shí)現(xiàn):

        public class TextInputFormat extends FileInputFormat {
         
         @Override
         public RecordReader
         createRecordReader(InputSplit split,
         TaskAttemptContext context) {
        // By default,textinputformat.record.delimiter = ‘/n’(Set in configuration file)
         String delimiter = context.getConfiguration().get(
         "textinputformat.record.delimiter");
         byte[] recordDelimiterBytes = null;
         if (null != delimiter)
         recordDelimiterBytes = delimiter.getBytes();
         return new LineRecordReader(recordDelimiterBytes);
         }
         
         @Override
         protected boolean isSplitable(JobContext context, Path file) {
         CompressionCodec codec =
         new CompressionCodecFactory(context.getConfiguration()).getCodec(file);
         return codec == null;
         }
        }

        根據(jù)上面的代碼, 不難發(fā)現(xiàn),換行符實(shí)際上是由”textinputformat.record.delimiter”這個(gè)配置決定的。

        所以我們有種解決方案:
        (1) 在Job中直接配置textinputformat.record.delimiter為”\n”,這種方案是比較Hack的,很容易影響到其他代碼的正常執(zhí)行。
        (2) 繼承TextInputFormat,在return LineRecordReader時(shí),使用自定義的分隔符。

        本文采用第二種方案,代碼如下:

        public class DocInputFormat extends TextInputFormat {
        	private static final String RECORD_DELIMITER = "\n";
        	@Override
        	public RecordReader createRecordReader(
        	InputSplit split, TaskAttemptContext tac) {
        	byte[] recordDelimiterBytes = null;
        	recordDelimiterBytes = RECORD_DELIMITER.getBytes();
        	return new LineRecordReader(recordDelimiterBytes);
        	}
        	@Override
        	public boolean isSplitable(JobContext context, Path file) {
        	CompressionCodec codec = new CompressionCodecFactory(
        	context.getConfiguration()).getCodec(file);
        	return codec == null;
        	}
        }

        需要指出的是,InputFormat只是把原始HDFS文件分割成String的記錄,如果你的 內(nèi)有其他結(jié)構(gòu)化數(shù)據(jù),那么需要在map中自己實(shí)現(xiàn)deserilize的相關(guān)業(yè)務(wù)邏輯來處理。

        ?

        聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

        文檔

        如何拓展Hadoop的InputFormat為其他分隔符

        如何拓展Hadoop的InputFormat為其他分隔符:在Hadoop中,常用的TextInputFormat是以換行符作為Record分隔符的。 在實(shí)際應(yīng)用中,我們經(jīng)常會(huì)出現(xiàn)一條Record中包含多行的情況,例如: doc..../doc 此時(shí),需要拓展TextInputFormat以完成這個(gè)功能。 先來看一下原始實(shí)現(xiàn): public class Tex
        推薦度:
        標(biāo)簽: 如何 分隔 其他
        • 熱門焦點(diǎn)

        最新推薦

        猜你喜歡

        熱門推薦

        專題
        Top
        主站蜘蛛池模板: 久久久久久毛片免费播放| 日韩电影免费在线观看网址| 久久午夜无码免费| 国产成人A人亚洲精品无码| aaa毛片视频免费观看| 亚洲无人区午夜福利码高清完整版 | 国产伦精品一区二区三区免费迷| 亚洲熟妇AV日韩熟妇在线| 性感美女视频免费网站午夜| 色婷婷亚洲一区二区三区| 四虎永久成人免费| 亚洲精品视频免费观看| 亚洲日韩精品无码专区网址| 久久精品视频免费播放| 亚洲一区二区三区免费在线观看| 扒开双腿猛进入爽爽免费视频| 亚洲av午夜国产精品无码中文字 | 亚洲成色WWW久久网站| 2020因为爱你带字幕免费观看全集| 亚洲的天堂av无码| 日韩一区二区三区免费体验| 日本一区二区三区免费高清在线| 国产亚洲欧洲Aⅴ综合一区| 欧洲人成在线免费| 亚洲狠狠婷婷综合久久蜜芽| 亚洲国产精品人人做人人爽 | 久久国产精品免费| 亚洲综合久久久久久中文字幕| 青春禁区视频在线观看直播免费| 在线看亚洲十八禁网站| 亚洲精品无码专区在线在线播放| 亚洲免费电影网站| 在线91精品亚洲网站精品成人| 亚洲爆乳精品无码一区二区三区| 波多野结衣免费在线| 黄色a三级免费看| 亚洲图片一区二区| 四虎永久在线精品免费影视 | 国产日产亚洲系列最新| 69式互添免费视频| 黄色一级免费网站|