因此,基本上,我正在处理长度不等的训练和测试数据集(一堆数组),如下所示:
a: {true, [1,3, 4, 5, 5, 8 ,10 ,10]}
b: {true, [1,3, 25, 18 ,1 ,10]}
c: {false, [1, 8 ,10]}
d: {false, [1,3 ,10 ,10]}
我是机器学习领域的新手,我一直沉迷于如何使这些不等长的输入数组变成等长,从而可以轻松利用现有的机器学习算法。
目前,我可以考虑使用最大公共序列来查找具有不同长度的输入数组之间的相似性。
但是基本上在获得LCS信息之后,如何将输入数组转换为等长的数组呢?
我走对了吗?谁能给我些帮助吗?
最佳答案
对于这种任务,没有通用的解决方案。一切都取决于您的数据实际代表什么。有数十种特征提取技术可以很好地处理各种长度的数据,但是具体的选择取决于具体的任务。没有,也不可能是一种使可变长度表示成为恒定长度的通用方法。 LCS似乎很奇怪,应该给出非常错误的结果(至少在一般情况下,也许在此特定问题中它具有含义)。如果是这种情况(LCS确实具有含义),则它将返回新表示形式的一维。它只是新载体的一项功能。您还需要更多的知识来应用任何合理的机器学习技术。
关于machine-learning - 如何使用适用于变体输入维度的监督式机器学习方法?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/23331928/