我正在使用BigQuery进行机器学习,更具体地说,是在尝试查找聚类的未标记数据集的k-means方法。
我想知道是否有人发现了BQ ML如何启动质心。
我已经尝试过查看文档,但是没有或者找不到。
CREATE MODEL `project.dataset.model_name`
OPTIONS(
model_type = "kmeans",
num_clusters = 3,
distance_type = "euclidean",
early_stop = TRUE,
max_iterations = 20,
standardize_features = TRUE)
AS
(SELECT * FROM `project.dataset.sample_date_to_train`
)
每次运行时,结果都会有所不同。
有人对此主题有经验吗?
最佳答案
对于仍在寻找答案的人,最近在BigQuery ML上有关于此主题的更新。 CREATE MODEL
语句中添加了两个新的参数,即:KMEANS_INIT_METHOD
KMEANS_INIT_COL
基本上,您可以设置自定义的K观测值(属于数据表),这些观测值将用作K-means算法的初始质心。您可以在此link中找到相关文档。也许这不是解决问题的最激动人心的方法,但是如果需要可重复性,仍然可以使用它。
关于machine-learning - 最初的kmeans点如何在BigQuery ML中起作用?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56656205/