我有一个批处理工作,将大约300,000行写入cassandra。我将它们分成较小的批量,每个批量为50行。
伪代码如下。
@Override
public void executeQuery(List<BatchStatement> batches) {
List<ResultSetFuture> futures = List.of();
for (BatchStatement batch: batches) {
futures.add(session.executeAsync(batch));
}
for(ResultSetFuture rsf: futures) {
rsf.getUninterruptibly();
/* I have to add the following code to avoid WriteTimeoutException
try {
Thread.sleep(100);
} catch (InterruptedException e) {
logger.error("Thread.sleep", e);
}
*/
}
}
我不知道为什么没有Thread.sleep,它总是会给出WriteTimeout异常。如何避免这种情况?
最佳答案
通过对数据使用批处理语句(很可能属于不同的分区),您确实会使系统超载,因为协调节点需要将请求发送到其他节点并等待答案。您仅需要将批处理用于特定的用例,而不必像在关系数据库中使用批处理一样,以加快执行速度。此documentation描述批处理的错误使用。
为每行发送单个异步请求将改善情况,但是您需要注意不要同时发送太多请求(使用信号灯),并且不要通过。
关于java - 没有Thread.sleep的Cassandra抛出WriteTimeout异常,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/54190817/