我正在使用BigQuery进行机器学习,更具体地说,是在尝试查找聚类的未标记数据集的k-means方法。
我想知道是否有人发现了BQ ML如何启动质心。

我已经尝试过查看文档,但是没有或者找不到。

CREATE MODEL `project.dataset.model_name`
    OPTIONS(
        model_type = "kmeans",
        num_clusters = 3,
        distance_type = "euclidean",
        early_stop = TRUE,
        max_iterations = 20,
        standardize_features = TRUE)
    AS
    (SELECT * FROM `project.dataset.sample_date_to_train`
    )


每次运行时,结果都会有所不同。
有人对此主题有经验吗?

最佳答案

对于仍在寻找答案的人,最近在BigQuery ML上有关于此主题的更新。 CREATE MODEL语句中添加了两个新的参数,即:


KMEANS_INIT_METHOD
KMEANS_INIT_COL


基本上,您可以设置自定义的K观测值(属于数据表),这些观测值将用作K-means算法的初始质心。您可以在此link中找到相关文档。也许这不是解决问题的最激动人心的方法,但是如果需要可重复性,仍然可以使用它。

关于machine-learning - 最初的kmeans点如何在BigQuery ML中起作用?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56656205/

10-12 17:56