什么是POI,为什么它会导致内存溢出
✅ 一、什么是POI
✅1.1 Excel并没看到的那么小
我们通常见到的xlsx文件,其实是一个个压缩文件。它们把若千个XML格式的纯文本文件压缩在一起,Excel就是读取这些压缩文件的信息,最后展现出一个完全图形化的电子表格。
所以,如果我们把xlsx文件的后缀更改为.zip或 .rar,再进行解压缩,就能提取出构成Excel的核心源码文件。解压会发现解压后的文件中有3个文件夹和1个XML格式文件:
_rels 文件夹看里面数据像是一些基础的配置信息,比如 workbook 文件的位置等信息一般不会去动它。
docProps 文件夹下重要的文件是一个app.xml,这里面主要存放了 sheet 的信息,如果想添加或编辑 sheet 需要改这个文件,其他文件都是一些基础信息的数据,比如文件所有者,创建时间等。
x文件夹是最重要的一个文件夹里面存放了Sheet 中的数据,行和列的格式,单元格的格式,sheet的配置信息等等信息。
所以,实际上我们处理的xlsx文件实际上是一个经过高度压缩的文件格式,背后是有好多文件支持的。所以,我们看到的一个文件可能只有2M,但是实际上这个文件未压缩情况下可能要比这大得多。
也就是说,POI在处理的时候,处理的实际上并不只是我们看到的文件大小,实际上比它的大小要大好几倍。
这是为什么明明我们处理的文件只有100多兆,但是实际却可能占用1G内存的其中一个原因。当然这只是其中一个原因,还有一个原因,我们就需要深入到POI的源码中来看了。
✅1.2 POI的溢出原理
我们拿POI的文件读取来举例,一般来说文件读取出现内存溢出的情况更多一些。以下是一个POI文件导出的代码示例:
import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
public class ExcelReadTest {
public static void main(String[] args) {
//指定要读取的文件路径
String filename = "example.xlsx";
try (FileInputStream fileInputStream = new FileInputStream(new File(filename))) {
//创建工作簿对象
Workbook workbook = new XSSFWorkbook(fileInputStream);
// 获取第一个工作表
Sheet sheet = workbook.getSheetAt(0);
//遍历所有行
for (Row row : sheet) {
// 遍历所有单元格
for (Cell cell : row) {
Thread.sleep(100); //添加注释:暂停程序执行100毫秒
// 根据不同数据类型处理数据
switch (cell.getCellType()) {
case STRING:
System.out.print(cell.getStringCellValue() + "\t"); //添加注释:输出单元格的字符串值
break;
case NUMERIC:
if (DateUtil.isCellDateFormatted(cell)) {
System.out.print(cell.getDateCellValue() + " t"); //添加注释:输出单元格的日期值
} else {
System.out.print(cell.getNumericCellValue() + " t"); //添加注释:输出单元格的数值
}
break;
case BOOLEAN:
System.out.print(cell.getBooleanCellValue() + " t"); //添加注释:输出单元格的布尔值
break;
case FORMULA:
System.out.print(cell.getCellFormula() +"t"); //添加注释:输出单元格的公式
break;
default:
System.out.print(""); //添加注释:不做任何操作
}
}
System.out.println(); //添加注释:换行
}
} catch (IOException e) {
e.printStackTrace();
} catch (InterruptedException e) {
throw new RuntimeException(e);
}
}
}
这里面用到了一个关键的XSSFWorkbook类,
public XSSFWorkbook(InputStream is) throws IOException {
this(PackageHelper.open(is);
}
public static OPCPackage open(InputStream is) throws IOException {
try {
return OPCPackage.open(is);
}catch (InvalidFormatException e) {
throw new POIXMLException(e);
}
}
最终会调用到OPCPackage.open方法,看看这个方法是怎么实现的:
/**
* Open a package.
*
*
* Note - uses quite a bit more memory than (@link #open(String)}, which
* doesn't need to hold the whole zip file in memory, and can take advantage
* of native methods
*
*aparam in
*
* The InputStream to read the package from
*
* @return A PackageBase object
*
*
* @throws InvalidFormatException
*
* Throws if the specified file exist and is not valid.
*
* @throws IOException If reading the stream fails
*/
public static OPCPackage open(InputStream in) throws InvalidFormatException,IOException {
OPCPackage pack = new ZipPackage(in,PackageAccess.READ_WRITE);
try {
if (pack.partList == nul1) {
(pack.getParts();
}
}catch (InvalidFormatException RuntimeException e) {
IOUtils.close0uietly(pack);
throw e;
}
return pack;
}
这行代码的注释中说了:这个方法会把整个压缩文件都加载到内存中。也就是把整个 Excel 文档加载到内存中,可想而知,这在处理大型文件时是肯定会导致导致内存溢出的。
也就是说我们使用的XSSFWorkbook (包括HSSFWorkbook也同理) 在外理Excel的过程中会将整个Excel都加载到内存中,在文件比较大的时候就会导致内存溢出。
✅ 二、拓展知识仓
✅2.1 几种Workbook格式
POI中提供了很多种Workbook API来操作Excel,有的适合大文件读写,有的不适合。
SSFWorkbook
- 用于处理Excel的.xsl格式(即Excel 97-2003)。
XSSFWorkbook
- 用于处理 Excel 的.xlsx 格式(即 Excel 2007 及以后版本的)支持更大的数据集和更多的功能,如更好的样式和公式支持。但是相对于HSSFWorkbook,它在处理大数据集时可能占用更多内存。
SXSSFWorkbook
- 用于处理xlsx 格式。它是 XSSFWorkbook 的流式版本,专门设计用于处理大数据集。通过将数据写入临时文件而非全部保留在内存中,显著减少内存消耗。特别适合用于创建大型数据集的 Excel 文件。
✅2.2 SXSSFWorkbook是什么
SXSSFWorkbook是Apache POI库中的一个类,用于处理大型Excel文件的写入,特别是当数据量可能非常大,以至于无法全部装入内存时。它是XSSFWorkbook的一个流式(streaming)版本,主要用于生成大数据量的Excel文件(.xlsx格式)。
SXSSFWorkbook的工作原理是,它只会将最新的几行数据(这个数量是可配置的)保存在内存中。当新的行被添加到工作表时,最旧的行将被写入到磁盘上的临时文件中,并从内存中删除。这样,SXSSFWorkbook可以用有限的内存处理几乎无限的数据量。
需要注意的是,一旦数据被写入到磁盘上的临时文件中,就不能再修改这些数据。此外,由于SXSSFWorkbook使用了流式写入技术,它的写入速度可能会受到磁盘速度的影响。
总的来说,如果你的应用程序需要生成大数据量的Excel文件,并且你担心内存溢出的问题,那么SXSSFWorkbook可能是一个很好的选择。
✅2.3 SXSSFWorkbook有哪些优点和缺点
优点:
- 内存友好:SXSSFWorkbook使用了一种基于硬盘的临时存储方式,将数据写入临时文件,而不是将所有数据存储在内存中。这使得它可以处理非常大的数据集,而不会导致内存溢出。
- 高性能:由于SXSSFWorkbook使用了临时文件存储数据,它可以有效地处理大量的数据。它避免了在内存中处理大量数据所带来的性能问题。
- 低内存占用:相较于XSSFWorkbook,SXSSFWorkbook在处理大型数据集时,占用的内存更少。这使得它在处理大数据量时表现更好。
缺点:
- 模板限制:SXSSFWorkbook不支持使用现有的XLSX文件作为模板,因为它是基于流式写入的,无法预先加载整个模板文件到内存中。因此,它不能使用模板打印。
- IO操作开销:在写磁盘过程中,SXSSFWorkbook可能会消耗较多的IO操作时间。这可能导致内存中产生很多对象,但原来的对象可能还没有完整写入磁盘中。
- 功能限制:相比XSSFWorkbook,SXSSFWorkbook在某些高级功能方面可能有所限制,例如复杂的样式或公式支持可能不完全相同。另外,因为它使用到了硬盘,当数据到达硬盘以后,无法完成数据的克隆或者公式计算,
sheet.clone()
等方法已经无法被支持。
这些优缺点可能会随着Apache POI库的更新而发生变化。在使用SXSSFWorkbook时,建议查阅最新的官方文档以获取最准确的信息。