我是Hadoop新手,我具有非结构化数据文件,需要在mapreduce中转换为结构化数据吗?如果没有,那是最佳实践
file1.txt
Message-ID: <5482922.1075855813971.JavaMail.evans@thyme>
Date: Thu, 26 Oct 2000 09:21:00 -0700 (PDT)
From: ted.bland@enron.com
To: janet.dietrich@enron.com, wes.colwell@enron.com, sally.beck@enron.com,
kevin.presto@enron.com, thomas.martin@enron.com,
hunter.shively@enron.com, scott.neal@enron.com, w.duran@enron.com,
jeff.donahue@enron.com, brian.redmond@enron.com
Subject: Super Saturday Interviewers for October 28, 2000
file2.txt
Message-ID: <12142333.1075855814153.JavaMail.evans@thyme>
Date: Tue, 24 Oct 2000 14:12:00 -0700 (PDT)
From: enron.announcements@enron.com
To: ena.employees@enron.com
Subject: Associate/Analyst Super Saturday Participation - ADDITIONAL REQUEST
file1.txt and file2.txt are two file, i want the output like
Message-ID Date From To Subject
respective values as like table. Is that possible in Mapreduce?
最佳答案
Hadoop API提供了一个InputFormat接口(interface),用于定义如何将输入数据转换为键值对集合。
已经有许多内置输入格式(请参阅文档中的实现类列表),但是它们非常通用,更适合结构化数据。例如,TextInputFormat假定每一行都是单独的记录,并生成键值对,其中键是行号,值是文本行。
对于非结构化数据,您必须定义自己的自定义输入格式类。这是有关如何执行此操作的简短教程的link。
附带说明一下,考虑使用Apache Spark,它具有Hadoop必须提供的所有功能,还有一个非常有用的machine learning library,可用于构建模型。