HDFS之SequenceFile和MapFile

二种方法的理念都以遍历一个map的Key,然后2个Map分别取那2个Key值所得到的Value。

List的二种遍历格局:
public class TestList {

所用到的第三方库:xlrd(读取Excel文件卡塔尔、xlwt(写入Excel文件卡塔尔、xlutils(操作Excel文件的利用工具,如复制、分割。筛选等卡塔尔国

#率先种用entry

Hadoop的HDFS和MapReduce子框架首假诺针对性大数据文件来设计的,在小文件的拍卖上不但效能低下,何况这么些消耗内部存款和储蓄器财富(每三个小文件占用一个Block,每二个block的元数据都存款和储蓄在namenode的内部存款和储蓄器里)。消除办法通常是选项三个容器,将那些小文件协会起来统风流罗曼蒂克存款和储蓄。HDFS提供了二种类型的容器,分别是SequenceFile和MapFile。

public static void main(String[] args) {
    List<String> list = new ArrayList<>();
    list.add("孙悟空");
    list.add("唐三藏");
    list.add("猪八戒");
    list.add("沙悟净");
    String listString = list.toString();
    System.out.println(listString);

    Integer size = list.size();
    for (int i = 0; i < size; i++) {
        String value1 = list.get(i);
        System.out.println(value1);
    }
    System.out.println("==========================");

    Iterator<String> iterator = list.iterator();
    while (iterator.hasNext()) {
        String value2 = iterator.next();
        System.out.println(value2);
    }
    System.out.println("==========================");


    for (String string : list) {
        System.out.println(string);
    }
}}

1、读取Excel

import  xlrd

data = xlrd.open_workbook(‘G:/221.xls’)

table = data.sheets()[0]

print(table.row_values(1))               #获取整行的值(横卡塔 尔(英语:State of Qatar)

print(table.col_values(0))                #得到整列的值(竖卡塔 尔(英语:State of Qatar)

nrows = table.nrows                        #拿到表格行数(横卡塔尔

ncols = table.ncols                          #获取表格列数(竖卡塔 尔(英语:State of Qatar)

cell_a = table.cell(0,1).value#(竖、横)

#遍历Excel

for row in range(nrows):

   for col in range(ncols):

        print(“(%s,%s): %s”%(row,col,table.cell(row,col).value))

private void compareMap(Map<String, String> Map01, Map<String, String Map02>){

        for (Map.Entry<String, String> entry : Map1.entrySet())
        {

           String testKey = entry.getKey();

           if(Map1.get(testId).equals(Map2.get(testId))){

                System.out.println("equals");

            }else{

                System.out.println("not equals");

            }
        }
}

一、SequenceFile

SequenceFile的蕴藏相符于Log文件,所分歧的是Log
File的每条记下的是纯文本数据,而SequenceFile的每条记下是可种类化的字符数组。

SequenceFile可经过如下API来成功新记录的丰盛操作:

       
fileWriter.append(key,value)

能够看见,每条记下以键值对的形式进行团队,但前提是Key和Value需具有类别化和反种类化的功用

Hadoop预约义了意气风发部分Key Class和Value
Class,他们直白或直接实现了Writable接口,满意了该作用,包罗:

Text                                等同于Java中的String
IntWritable                   等同于Java中的Int
BooleanWritable        等同于Java中的Boolean
        .
        .

在蕴藏结构上,SequenceFile首要由八个Header后跟多条Record组成,如图所示:

图片 1

Header首要蕴含了Key classname,Value
classname,存款和储蓄压缩算法,顾客自定义元数据等消息,别的,还包罗了部分联袂标志,用于神速稳固到记录的边界。

每条Record以键值没错方法开展仓库储存,用来代表它的字符数组可依次解析成:记录的长度、Key的长度、Key值和Value值,何况Value值的布局决意于该记录是还是不是被减削。

数据压缩有协理节省磁盘空间和加速网络传输,SeqeunceFile帮忙二种格式的数据压缩,分别是:record
compression和block compression。

record compression如上图所示,是对每条记下的value进行减少

block
compression是将生机勃勃连串的record组织到协同,统生机勃勃压缩成三个block,如图所示:

图片 2

block音信根本囤积了:块所包涵的记录数、每条记下Key长度的聚合、每条记下Key值的聚合、每条记下Value长度的晤面和每条记下Value值的谋面

注:各类block的轻重是可通过io.seqfile.compress.blocksize属性来内定的

示例:SequenceFile读/写 操作

[java] view
plaincopy

  1. Configuration conf=new Configuration();  
  2. FileSystem fs=FileSystem.get(conf);  
  3. Path seqFile=new Path(“seqFile.seq”);  
  4. //Reader内部类用于文书的读取操作  
  5. SequenceFile.Reader reader=new SequenceFile.Reader(fs,seqFile,conf);  
  6. //Writer内部类用于文书的写操作,假如Key和Value都为Text类型  
  7. SequenceFile.Writer writer=new SequenceFile.Writer(fs,conf,seqFile,Text.class,Text.class);  
  8. //通过writer向文书档案中写入记录  
  9. writer.append(new Text(“key”),new Text(“value”));  
  10. IOUtils.closeStream(writer);//关闭write流  
  11. //通过reader从文书档案中读取记录  
  12. Text key=new Text();  
  13. Text value=new Text();  
  14. while(reader.next(key,value)){  
  15.     System.out.println(key);  
  16.     System.out.println(value);  
  17. }  
  18. IOUtils.closeStream(reader);//关闭read流  

// 第生龙活虎种艺术遍历list集合:for循环
Integer size = list.size();
for (int i = 0; i < size; i++) {
String value1 = list.get(i);
System.out.println(value1);
}
// 第二种方法遍历list集结:iterator 迭代器
Iterator<String> iterator = list.iterator();
while (iterator.hasNext()) {
String value2 = iterator.next();
System.out.println(value2);
}
// 第二种艺术遍历list集结:foreach
for (String string : list) {
System.out.println(string);
}

2、写入新Excel文件

import   xlwt

wb = xlwt.Workbook()                 # 创设 xls 文件对象

sh = wb.add_sheet(‘A Test Sheet’)       # 新扩大一个表单

# 按岗位增加数据

sh.write(0,0,1234.56)

sh.write(1,0,8888)

sh.write(2,0,’hello’)

sh.write(2,1,’world’)

wb.save(‘example.xls’)  # 保存文件

#第三种用keyset的法子,把key值存到容器,分别抽取比较

二、MapFile

MapFile是排序后的SequenceFile,通过阅览其目录结构得以见到MapFile由两局地构成,分别是data和index。

index作为文件的数目索引,主要记录了各类Record的key值,以至该Record在文书中的偏移地方。在MapFile被访问的时候,索引文件会被加载到内部存款和储蓄器,通过索引映射关系可连忙定位到内定Record所在文件地点,因而,相对SequenceFile来讲,MapFile的寻找功用是赶快的,劣点是会费用风度翩翩部分内部存款和储蓄器来存款和储蓄index数据。

需注意的是,MapFile并不会把具备Record都记录到index中去,默许情状下每间距128条记下存款和储蓄二个索引映射。当然,记录间距可人为改善,通过MapFIle.Writer的setIndexInterval()方法,或改造io.map.index.interval属性;

其余,与SequenceFile分歧的是,MapFile的KeyClass必定要兑现WritableComparable接口,即Key值是可正如的。

身体力行:MapFile读写操作

[java] view
plaincopy

  1. Configuration conf=new Configuration();  
  2. FileSystem fs=FileSystem.get(conf);  
  3. Path mapFile=new Path(“mapFile.map”);  
  4. //Reader内部类用于文书的读取操作  
  5. MapFile.Reader reader=new MapFile.Reader(fs,mapFile.toString(),conf);  
  6. //Writer内部类用于文书的写操作,如果Key和Value都为Text类型  
  7. MapFile.Writer writer=new MapFile.Writer(conf,fs,mapFile.toString(),Text.class,Text.class);  
  8. //通过writer向文书档案中写入记录  
  9. writer.append(new Text(“key”),new Text(“value”));  
  10. IOUtils.closeStream(writer);//关闭write流  
  11. //通过reader从文书档案中读取记录  
  12. Text key=new Text();  
  13. Text value=new Text();  
  14. while(reader.next(key,value)){  
  15.     System.out.println(key);  
  16.     System.out.println(key);  
  17. }  
  18. IOUtils.closeStream(reader);//关闭read流  

小心:使用MapFile或SequenceFile即使能够消除HDFS中型Mini文件的蕴藏难题,但也许有必然局限性,如:
1.文本不协助复写操作,无法向已存在的SequenceFile(MapFile)追加存款和储蓄记录
2.当write流不仅仅息的时候,未有章程构造read流。也正是在推行文书写操作的时候,该公文是不可读取的

Map的三种遍历情势:

3、张开已存在Excel文件,写入音信

import  xlrd

from xlutils import copy

data = xlrd.open_workbook(‘G:/221.xls’,formatting_info=True)
 #确认保障改进后的文件格式不改变

w= copy(data)

news =w.get_sheet(0)

news.write(3,3,’str’)

try:

   w.save(‘G:/221.xls’)

except(SyntaxError,PermissionError):

   print(“文件未关门!”)

You can leave a response, or trackback from your own site.

Leave a Reply

网站地图xml地图