被引用次数:12
Abstract
直接查询IP地理定位数据库是确定具有相应IP地址的主机所在的地理位置的一种方便而广泛的方法。然而,互联网上的许多数据库可能不能像他们所声称的那样提供准确的数据。本文主要分析了中国流行的IP地理定位数据库中记录的中国大陆的IP地址。
Keywords
IP geolocation database(IP地理定位数据库); Consistency rate(一致性率); Data quality(数据质量); Clustering and classification analyses(聚类和分类分析)
I. INTRODUCTION
IP地理定位技术旨在定位不同规模的IP设备。目前,对IP地理定位技术的需求存在于许多方面,如社交共享[1]、目标广告[2]、路由选择[3]、网络安全[4]等,现在都见证了繁荣。然而,准确的地理定位仍然是一个棘手的问题,原因有二:
[1] Liu X, Liu K, Guo L, et al. A game-theoretic approach for achieving k-anonymity in location based services[C]//INFOCOM, 2013 Proceedings IEEE. IEEE, 2013: 2985-2993.
[2] Steenstra J, Gantman A, Taylor K, et al. Location based service (LBS) system and method for targeted advertising: U.S. Patent Application 10/931,309[P]. 2004-8-31.
[3] Abboud O, Kovacevic A, Graffi K, et al. Underlay awareness in P2P systems: Techniques and challenges[C]//Parallel & Distributed Processing, 2009. IPDPS 2009. IEEE International Symposium on. IEEE, 2009: 1-8.
[4] Algis K. What is geolocation and how does it apply to network detection? 2009. http://www.sans.org/security-resources/idfaq/ geolocation-network-detection.php.
在文献和实践中,主动检测和被动查询是IP地理定位[5]的两种主要方法,前者比后者的研究广泛得更广泛。
主动检测通常可以分为两大类:基于终端的方法和基于非终端的[5]方法。其中最广泛使用的终端方法之一是通过嵌入终端的GPS(全球定位系统)模块直接获取精确的唯一(纬度、经度)对,精度高达米级(meter-level)[6]。基于非终端的方法,在频谱的另一端,没有终端的帮助而执行。它们大多采用路由跳点和时间延迟来估计位置。在这些方法中,一些方法根据跳/延迟与距离[7-8]的正数学相关来计算终端位置;一些具有路由跳和时延实验数据的列车分类器,并将其用于新的测试数据[9]。此外,还提出了一些综合的地理定位方法[10]。