我有一个Elasticsearch集群,可以根据推文的日期在不同的索引中索引Twitter数据。
用于400万条推文的磁盘空间约为5GB。
在对存储的字段进行了一些更改并使用其他信息丰富了数据之后,200万个文档的新索引使用了大约8GB的空间。
新旧的映射是相同的,唯一的区别是旧索引在某些字段中没有数据。
我预计存储空间使用量会增加,但这是过度的。我有一种理论认为边界框字段可能是使用此空间大部分的字段。
我已经看过API了,看不到一个显示单个字段使用的磁盘空间量的API。有什么方法可以获取此信息,以便我可以比较两个索引?
我对字段数据的大小不感兴趣。我需要知道磁盘上用于单个字段的术语索引的空间。
最佳答案
没有内置解决方案,但是您可以创建索引副本,并且只包含几个想要大小的字段。
这应该给你一个很好的数字。
从https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-reindex.html:
POST _reindex
{
"source": {
"index": "twitter",
"_source": ["user", "_doc"]
},
"dest": {
"index": "new_twitter"
}
}