我有一个Elasticsearch集群,可以根据推文的日期在不同的索引中索引Twitter数据。

用于400万条推文的磁盘空间约为5GB。

在对存储的字段进行了一些更改并使用其他信息丰富了数据之后,200万个文档的新索引使用了大约8GB的空间。

新旧的映射是相同的,唯一的区别是旧索引在某些字段中没有数据。

我预计存储空间使用量会增加,但这是过度的。我有一种理论认为边界框字段可能是使用此空间大部分的字段。

我已经看过API了,看不到一个显示单个字段使用的磁盘空间量的API。有什么方法可以获取此信息,以便我可以比较两个索引?

我对字段数据的大小不感兴趣。我需要知道磁盘上用于单个字段的术语索引的空间。

最佳答案

没有内置解决方案,但是您可以创建索引副本,并且只包含几个想要大小的字段。

这应该给你一个很好的数字。

https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-reindex.html:

POST _reindex
{
  "source": {
    "index": "twitter",
    "_source": ["user", "_doc"]
  },
  "dest": {
    "index": "new_twitter"
  }
}

09-10 21:58
查看更多