我有一个包含市场信息的数据集数据集包含以下内容:市场量、购买量、全天平均购买量、全天平均购买量和所有市场的平均购买量,以及该市场与所有市场相比的平均价格百分比。
数据如下:
market volume numPurchases transDate avgDailyPurchases AvgDailyPurchasesAll
JFK 500 32 20190102 50 75
JFK 500 60 20190103 50 75
ATL 450 40 20190102 40 75
avgPercentCheaperThanAll
.22
.22
.75
我想做的是给市场排名。顶级市场的定义是,
avgDailyPurhcases
相对于其成交量来说很高,avgPercentCheaperThanAll
也很高。因此,从上述数据来看,ATL将是一个比JFK更好的市场,尽管JFK拥有更多的avgDailyPurchases
,ATL比所有市场都便宜得多。我尝试使用imdb公式对电影进行排名,但我使用了自己的变量表示法,例如:
weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
v = volume of market
m = minimum volume required to be in the list
R = avgDailyPurchases
C = AvgDailyPurchasesAll
这给了我一个很好的列表,但它缺少一个主要因素:avgpercentcheaperthanall。我怎样才能把这个加到等式中,得到更好的结果呢?
最佳答案
在设计评级公式或任何公式之前,应考虑的几点是。
识别输入变量:这是可以理解的。
AvgDailyPurchaseAll、AvgPercentCheaperThanall、AvgDailyPurchaseAll和AvgPercentCheaperThanall,
卷,卷的最小阈值
规范化输入变量:根据以上数据,可以推断成交量在100年内运行,日均购买量在10年内运行,而便宜的变量在小数点运行。如果你试图在一个方程中直接使用这些变量而不进行规范化,那么你的评级将有偏差,主要由体积因素决定。因此,您应该考虑规范化它们,使用此链接了解更多Normalize Data。
分配权重:您希望avgpercentcheaperthall具有比avgDailyPurchases变量更高的优先级,这可以通过为变量分配适当的权重来实现。
定义关系:你应该考虑定义变量之间的关系,不管它们是直接相关的还是间接相关的。
导出方程:最后一步是导出方程。从上面的步骤,这将是非常容易的,只要结合所有的关系,然后你将留下一个方程类型:
评级=[变量1的权重]*[标准化变量1的值]+……等等。
你将能够从上面的步骤中得出你所需要的方程式,这个方程式对你来说会更清楚,更适合你的情况否则,你可以在网上复制任何评分公式,并根据你的需要进行修改,但每个公式都会给出不同的结果,当更多的输入变量到达时,你将无法控制它们。
希望这有帮助。
关于algorithm - 对市场进行排名的算法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56388515/