机器学习 - 聚类算法的实际应用
问 题 聚类算法在实际项目中都应用在哪些方面? 解决方案 能想到的场景或接触到的场景如下。 用户分类运营。一般情况下,运营给的分类标准比较多,比如RFM模型中就有三个变量,如果穷举所有变量为0,1也有8种。在一些线下或者个性化要求不高的场景中,聚类就是一个很好的策略,可以根据运营能接受的运营数目,给定聚类数来使用聚类。完成后为每个结果标注变量的大小,告诉运营每个类别的属性,然后分别制定不同的运营策略。 异常检测。这个往往在数据清洗中,可以排除掉一些典型有问题的数据;另外,此原理也可以用来发现异常用户(反盗刷、反爬虫)。 部分程度上说,聚类可以用来降维。这个没实践过,但理论上是一个可以实现的降维策略。
258 2022-07-19
编程技术问答社区
聚类分析 - sklearn的kmeans使用的是哪种距离度量?
问 题 sklearn的dbscan等其他算法都会有一个metric参数来指定距离度量。 为什么kmeans没有这样的参数。 看了好久源码也没弄懂它默认的是哪种度量。 sklearn的源码如下: class KMeans(BaseEstimator, ClusterMixin, TransformerMixin): """K-Means clustering Read more in the :ref:`User Guide `. Parameters ---------- n_clusters : int, optional, default: 8 The number of clusters to form as well as the number of centroids to generate. max_iter : int, default: 300
3458 2022-07-17
编程技术问答社区