java - 使用Apache Beam将插入式广告扩展到BigQuery时如何指定insertId | BigQuery

BigQuery

hibernate - hibernate 缓存问题

c++ - C字符串到宽C字符串

javascript - 使用基本网址和Javascript自动生成YouTube嵌入

c++ - C++精度/精度提高了一倍以上

java - neo4j modell one与n个属性的关系vs n与1个属性的关系

unit-testing - 如何在 Jasmine 测试中模拟导出的 typescript 功能？

c# - 如何从控制台应用程序将文件上传到ASP.NET MVC

python - 二次方程的错误答案

sql - MySQL“操作顺序”问题

javascript - 在缩小的Javascript中查找错误的位置

php - 使用JavaScript重定向到PHP脚本中的动态href

php - 是否应该使用通过DNS/MX记录进行的电子邮件验证？

javascript - 防止在按Enter键时提交表单

java - 避免输出参数(没有副作用)

javascript - 在生产模式下运行时，图像未在yeoman应用程序中显示

java - 使用Apache Beam将插入式广告扩展到BigQuery时如何指定insertId

扫码查看

BigQuery支持重复数据删除以进行流插入。如何通过Apache Beam使用此功能？

https://cloud.google.com/bigquery/streaming-data-into-bigquery#dataconsistency

为了帮助确保数据一致性，可以为每个插入的行提供insertId。 BigQuery会记住此ID至少一分钟。如果您尝试在该时间段内流传输相同的行集，并且设置了insertId属性，则BigQuery将使用insertId属性来尽最大努力消除重复数据。您可能必须重试插入，因为在某些错误情况下(例如系统与BigQuery之间的网络错误或BigQuery中的内部错误)，无法确定流插入的状态。如果您重试插入，请对相同的行集使用相同的insertId，以便BigQuery可以尝试对您的数据进行重复数据删除。有关更多信息，请参见对流插入进行故障排除。

我在Java文档中找不到此类功能。
https://beam.apache.org/releases/javadoc/2.9.0/org/apache/beam/sdk/io/gcp/bigquery/BigQueryIO.Write.html

他建议在this question中在TableRow中设置insertId。这样对吗？

https://developers.google.com/resources/api-libraries/documentation/bigquery/v2/java/latest/com/google/api/services/bigquery/model/TableRow.html?is-external=true

BigQuery客户端库具有此功能。

https://googleapis.github.io/google-cloud-java/google-cloud-clients/apidocs/index.html?com/google/cloud/bigquery/package-summary.html
https://github.com/googleapis/google-cloud-java/blob/master/google-cloud-clients/google-cloud-bigquery/src/main/java/com/google/cloud/bigquery/InsertAllRequest.java#L134

最佳答案

发布/订阅+光束/数据流+ BigQuery :应该保证“恰好一次”，您不必为此担心。现在，当您要求Dataflow使用FILE_LOADS而不是STREAMING_INSERTS插入到BigQuery时，这种保证会更强。

Kafka + Beam / Dataflow + BigQuery :如果可以从Kafka多次发出一条消息(例如，如果生产者重试插入)，则需要注意重复数据删除。在BigQuery中(根据您的评论，当前已实现)，或者在.apply(Distinct.create())转换的Dataflow中。

10-07 15:56