我需要对商业产品进行分类。你知道比价引擎是做什么的。
我们得到了特征向量他们不是最好的,但也不是很好。我的最后一步是在不知道有多少集群的情况下对它们进行分类。所以像k-means这样的算法是行不通的,因为它们需要多少类。
这里是一组特征向量的例子。它们在这里是有序的(作为一个例子),但我需要一个不依赖于任何顺序的算法。
#################################################
47 - ddr2;asus;1066;g41;am;p5qpl;775;
48 - g41;p5qpl;asus;am;ddr2;vga;anakart;
49 - intel;anakart;ddr2;1066;p5qpl;asus;am;
50 - p5qpl;ddr2;asus;am;g41;vga;anakart;
51 - ddr2;asus;1066;g41;am;p5qpl;775;
52 - g41;p5qpl;1066;am;ddr2;asus;anakart;
53 - p5qpl;ddr2;1066;am;g41;asus;sata;
54 - g41;p5qpl;1066;am;asus;ddr2;sata;
###################################################
55 - engtx480;asus;384bit;2di;gddr5;vga;16x;
56 - 2di;karti;384bit;asus;engtx480;ekran;pci;
57 - asus;engtx480;2di;vga;gddr5;384bit;16x;
58 - 2di;karti;engtx480;384bit;asus;gddr5;1536mb;
59 - engtx480;asus;384bit;2di;gddr5;vga;16x;
60 - engtx480;asus;384bit;2di;gddr5;vga;16x;
####################################################
61 - ray;blu;ihbs112;siyah;bulk;dvd;sata;
62 - ihbs112;ray;blu;on;lite;yazici;kutusuz;
63 - ihbs112;blu;ray;lite;on;siyah;bulk;
64 - blu;ihbs112;ray;lite;on;siyah;yazici;
65 - liteon;ihbs112;bd;yazma;hizi;12x;max;
66 - ihbs112;ray;blu;on;lite;bulk;dvd;
67 - etau108;dvd;siyah;lite;on;rw;ihbs112;
68 - ihbs112;liteon;bd;yazma;hizi;12x;max;
69 - ihbs112;ray;blu;lite;on;siyah;bulk;
#####################################################
当一个人看起来很容易用这些特征向量来分类产品但我需要通过一个算法来实现。而且我需要用一种算法来实现它,这种算法不需要任何先验信息,只需要使用特征向量。
从上面的特征向量集中,47-54是一个簇,55-60是另一个簇,61-69是另一个簇(每个簇都是现实生活中的商业产品)。因此,该算法需要利用这些特征向量来正确分类。
该算法不依赖于特征向量的行顺序或将有多少类。我们什么都不知道,我们只有特征向量。
等待您对此分类问题的建议。谢谢您。
最佳答案
Adaptive Resonance Theory是你问题的简短答案与KMeans不同,您不需要预先设置集群的数量输入是一组二进制(ART 1算法)或连续(ART-2A、ARTMAP等)的特征向量,输出是集群中文档的分类。