KMeans Clustering using Python(KMeans表示使用Python进行集群)
本文介绍了KMeans表示使用Python进行集群的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我有一个数据集
Name System
A AZ
A NaN
B AZ
B NaN
B NaN
C AY
C AY
D AZ
E AY
E AY
E NaN
F AZ
F AZ
F NaN
使用此数据集时,我需要根据";系统&为特定";名称&Quot;重复的次数对数据集进行群集。
在上面的示例中,名称A、B和D有一个子集,而C、E有两个子集,F有两个AZ,因此它是一个不同的集群。
输出示例:
Cluster Names
AZ A,B
AY,AY C,E
AZ,AZ F
PS。实际数据集的行数和列数可能不同 如何使用基于ML的聚类算法(如KNN、朴素贝叶斯等)来实现这一点? 我需要两种方法,一种不忽略NaN,另一种忽略NaN。
推荐答案
IIUC,这看起来像一个双倍groupby。您首先需要按名称和系统进行分组,并聚合系统以形成集群。则这是一个简单的groupby,聚合为字符串。
(df.groupby(['Name', 'System'])
['System'].agg(Cluster=','.join) # clusters of repeats
.droplevel('System').reset_index()
.groupby('Cluster')['Name'].agg(','.join) # aggregate by cluster
.reset_index()
)
输出:
Cluster Name
0 AY,AY C,E
1 AZ A,B,D
2 AZ,AZ F
Nb。我在这里使用了','.join聚合,但您也可以使用tuple或自定义函数(第一个groupby)和frozenset(第二个groupby)来保持对单个元素的访问
(df.groupby(['Name', 'System'], dropna=False)
['System'].agg(Cluster=lambda x: (x.iloc[0], len(x)))
.droplevel('System').reset_index()
.groupby('Cluster')['Name'].agg(frozenset)
.reset_index()
)
输出:
Cluster Name
0 (AY, 2) (E, C)
1 (AZ, 1) (B, A, D)
2 (AZ, 2) (F)
3 (nan, 1) (E, F, A)
4 (nan, 2) (B)
这篇关于KMeans表示使用Python进行集群的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
织梦狗教程
本文标题为:KMeans表示使用Python进行集群
基础教程推荐
猜你喜欢
- Kivy 使用 opencv.调整图像大小 2022-01-01
- 对多索引数据帧的列进行排序 2022-01-01
- 在 Python 中将货币解析为数字 2022-01-01
- Python 中是否有任何支持将长字符串转储为块文字或折叠块的 yaml 库? 2022-01-01
- 究竟什么是“容器"?在蟒蛇?(以及所有的 python 容器类型是什么?) 2022-01-01
- 在 Django Admin 中使用内联 OneToOneField 2022-01-01
- 比较两个文本文件以找出差异并将它们输出到新的文本文件 2022-01-01
- matplotlib 设置 yaxis 标签大小 2022-01-01
- Python,确定字符串是否应转换为 Int 或 Float 2022-01-01
- kivy 应用程序中的一个简单网页作为小部件 2022-01-01
