我有一个包含市场信息的数据集数据集包含以下内容:市场量、购买量、全天平均购买量、全天平均购买量和所有市场的平均购买量,以及该市场与所有市场相比的平均价格百分比。
数据如下:

market volume  numPurchases   transDate  avgDailyPurchases  AvgDailyPurchasesAll
JFK    500     32             20190102   50                 75
JFK    500     60             20190103   50                 75
ATL    450     40             20190102   40                 75

avgPercentCheaperThanAll
.22
.22
.75

我想做的是给市场排名。顶级市场的定义是,avgDailyPurhcases相对于其成交量来说很高,avgPercentCheaperThanAll也很高。因此,从上述数据来看,ATL将是一个比JFK更好的市场,尽管JFK拥有更多的avgDailyPurchases,ATL比所有市场都便宜得多。
我尝试使用imdb公式对电影进行排名,但我使用了自己的变量表示法,例如:
weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
v = volume of market
m = minimum volume required to be in the list
R = avgDailyPurchases
C = AvgDailyPurchasesAll

这给了我一个很好的列表,但它缺少一个主要因素:avgpercentcheaperthanall。我怎样才能把这个加到等式中,得到更好的结果呢?

最佳答案

在设计评级公式或任何公式之前,应考虑的几点是。
识别输入变量:这是可以理解的。
AvgDailyPurchaseAll、AvgPercentCheaperThanall、AvgDailyPurchaseAll和AvgPercentCheaperThanall,
卷,卷的最小阈值
规范化输入变量:根据以上数据,可以推断成交量在100年内运行,日均购买量在10年内运行,而便宜的变量在小数点运行。如果你试图在一个方程中直接使用这些变量而不进行规范化,那么你的评级将有偏差,主要由体积因素决定。因此,您应该考虑规范化它们,使用此链接了解更多Normalize Data
分配权重:您希望avgpercentcheaperthall具有比avgDailyPurchases变量更高的优先级,这可以通过为变量分配适当的权重来实现。
定义关系:你应该考虑定义变量之间的关系,不管它们是直接相关的还是间接相关的。
导出方程:最后一步是导出方程。从上面的步骤,这将是非常容易的,只要结合所有的关系,然后你将留下一个方程类型:
评级=[变量1的权重]*[标准化变量1的值]+……等等。
你将能够从上面的步骤中得出你所需要的方程式,这个方程式对你来说会更清楚,更适合你的情况否则,你可以在网上复制任何评分公式,并根据你的需要进行修改,但每个公式都会给出不同的结果,当更多的输入变量到达时,你将无法控制它们。
希望这有帮助。

关于algorithm - 对市场进行排名的算法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56388515/

10-12 23:06