一览众山小编辑团队

原文/ Todd Schneider

翻译/ 沈玮薇 陈翚

文献/ 蒋理 校核/ 众山小编辑/ 众山小 排版/ 徐颖 2014-2015 ©

转载请注明:源自公众号“一览众山小-可持续城市与交通” :

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

近期的出租车和互联网约车之争一时成为了热点。只是因为缺乏具体的数据信息分析,非常多的结论都是定性为主。并为各种利益团体所把持。

因此今天我们就介绍一下 纽约的开放心态,高达几十个G的有关出租车和UBER的上下客出行数据被免费分享出来,供大家来研究。

我们觉得这种科学态度才是支持我们正确认识并推动
出租车行业改革的基础。出租车是一种什么样的物种。他们书写着城市发展的历史痕迹,享受着经济繁荣的灯红酒绿,歌颂着城市缔造者的丰功伟绩,经历着社会变 革的际会风云。

当出租车遇见了GPS定位,他的故事从“字迹”变成了“大数据”。

当出租车的大数据遇见了纽约,他们的故事就成了古迹,他们的字迹就成了甲 骨文,引来考古学者们各显神通,探究真相。

这是一篇从2009年1月到2015年6月期间超过11亿条的城市内部个体出租车出行记录研究出来的文章。你想 知道纽约的市民怎样生活?怎样工作?怎样度过夜生活?怎样赶飞机?去哪里更easy邂逅华尔街的投资银行家?“全球出租车公敌”Uber究竟是天使还是魔鬼?
那就“耐心”的赞赏吧。本文借助全美公开的出租车和Uber打车数据的视角,对城市内的居民区、夜生活、机场交通等很多其它方面的内容,进行开源的探索。这篇 真心是大数据。我们将提供好几十个G的原始数据下载~~~纽约。怪我咯?

 概述   

纽约市出租车和轿车委员会公布了一份惊人具体的历史数据集,包含了从2009年1月到2015年6月期间超过11亿条的城市内部个体出租车出行记录(參考文献1,请联系我们索取)。
总的来说。这些具体的出行层面的数据不不过记录了出租车上下客坐标的巨大列表:这是一个关于纽约的故事。上下班高峰期从中城到肯尼迪(机场)的交通状况 有多糟糕?周六晚上出去玩时,“桥和隧道”在哪里聚集?什么时候投资银行家来上班?Uber打车是怎样改变出租车市场的现状?布鲁斯•威利斯和塞缪尔•杰 克逊是否能在30分钟内从百老汇72街到华尔街?这个数据集攻克了全部这些问题,甚至很多其它。

我 把每一次出行的坐标映射到当地人口普查区和居民区上,然后開始努力从数据中提取故事和意图。这篇文章涵盖了非常多内容。但对于那些想自己继续做很多其它分析的
人:这篇文章中的全部内容——数据、软件和代码,都是能够免费获得的。下载和分析数据的具体说明,能够在GitHub(一个开源码库)上找到。

(https://github.com/toddwschneider/nyc-taxi-data)

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

文件夹

1、地图

2、数据

3、区的动态和Uber打车的出现

4、机场交通

5、虎胆龙威3的现实情况

6、天气是怎样影响出租车和Uber打车的乘客数量

7、纽约的深夜出租车指数

8、“桥和隧道”的聚集

9、威廉斯堡的北部

10、隐私问题

11、投资银行家

12、最后的感想

1地图

我当然不是第一个使用公共出租车数据制作地图的人,但我眼下还没有看到哪一个地图可以包括2009年以来所有黄色和绿色出租车上下客的所有数据。你可以点击地图来查看高分辨率的版本号。

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图一、纽约市的出租车上客数

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图二、纽约市的出租车下客数

这 些地图分别显示了纽约市从2009年到2015年期间每一次出租车的上客和下客。

这些地图由非常小的点组成,亮一点的区域表示很多其它的出租车在活动。绿色的区 域表示绿色博罗出租车的活动情况,这个绿色博罗出租车仅仅能在上曼哈顿和外围区上客。请注意上客是怎样很多其它的集中在曼哈顿。而下客是怎样向外围区进一步延 伸。

假设你认为这些图非常美丽,我推荐你查看高分辨率的上、下客图片。

2数据

纽约市出租车数据

出 租车和轿车委员会公布的官方的出行记录数据集包含11亿多条从2009年1月到2015年6月的出行记录,包含了黄色和绿色的出租车。

每一条出行记录包含 了出行从哪開始到哪结束的精确位置坐标、出行什么时候開始什么时候结束的时间戳。再加上一些其它的变量。包含费用、支付方式和出行距离。

我 使用PostgreSQL(一种数据库)来存储数据。使用PostGIS来完毕地理上的计算。包含将大量的地图上的经纬度坐标映射到纽约市人口普查区和居
民区。在加入不论什么索引前。所有数据集占了267GB。

很多其它的具体的关于数据库模式和地理计算的信息能够看一下GitHub 存储库。

Uber打车数据  感谢FiveThirtyEight(一个数据新闻站点)的人们,这里也有一些公开的数据。包含将近1900万条纽约市内2014年4月到9月和2015年1月到6月的Uber打车数据(http://fivethirtyeight.com/tag/uber/),(參考文献2,请联系我们索取)这
些数据我已经合并到数据集中。

Uber打车数据并不像出租车数据那样具体,特别是,Uber打车数据只提供上客的时间和位置信息,而没有下客的信息。

数 据集中的每一条出行记录有一个cab_type_id字段,表示这次出行是属于黄色出租车、绿色出租车还是Uber打车。

3区的动态和Uber打车的出现

2013年8月绿色博罗出租车计划的引入。戏剧性的添加了外围区出租车的活动量。这里有一张纽约市西南部人口最稠密的布鲁克林区的出租车上客图,依据出租车的类型进行分类。

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图三、布鲁克林区每月的出租车上客量(基于纽约市出租车和轿车委员会的出行数据)

从2009年到2013年。这一时间段从曼哈顿迁移到布鲁克林的数量普遍添加,黄色出租车在曼哈顿的上客量差点儿是它们在布鲁克林区上客量的两倍。

一 旦博罗出租车出如今市场,虽然绿色出租车高速取代了黄色出租车以至于截止到2015年6月。绿色出租车占领了布鲁克林区每月85万出租车上客量的70%, 而黄色出租车在布鲁克林区的上客量下降到它们2009年的比例。可是,黄色出租车在布鲁克林区仍然占领很多其它的下客量,由于非常多人继续从曼哈顿乘坐出租车到
布鲁克林。但即使是在下客量中,绿色出租车正在缩小它们与黄色出租车之间的差距。  让我们把Uber打车增加到混战中。我 居住在布鲁克林,虽然我有时候乘坐出租车,但对我的信用卡对账单的检查发现,我乘坐Uber打车的次数是出租车的4倍。原来我并不孤单:在2014年6月
到2015年6月,布鲁克林区Uber打车的上客量添加了525%!截止到2015年6月我写这篇文章时。最新的数据显示, 在布鲁克林区Uber打车的上客量是黄色出租车的2倍多,Uber正高速接近绿色出租车的受欢迎程度。

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图四、布鲁克林区Uber VS 出租车的上客量

注意:Uber的数据仅包含2014年4月到2014年9月的,还有2015年1月到6月,因此图中有缺口。 曼 哈顿。不夸张地说,占了迄今为止纽约不论什么一个区出租车上客量的最大值,在随意给定的月份,所有的纽约出租车上客量中,将近85%的上客量发生在曼哈顿,而 且大部分这些上客量由黄色出租车承担。

虽然绿色出租车被同意在上曼哈顿运营,它们差点儿仅占黄色出租车活动量的一小部分。

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图五、曼哈顿每月出租车上客量

Uber打车也戏剧性地在曼哈顿急剧增长,从2014年6月到2015年6月上客量添加了275%。而出租车上客量在同一时期下降了9%。

2015年6月Uber打车在曼哈顿的上客量比2014年6月添加了140万,而出租车上客量在同一时期少了110万。然而,即使Uber打车在2015年6月接送了将近200万曼哈顿乘客,Uber仍然仅仅占曼哈顿总上客量的15%不到。

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图六、曼哈顿区Uber VS 出租车的上客量

皇后区黄色出租车的上客量仍然比绿色出租车多。但那全然是由于拉瓜迪亚和肯尼迪机场在皇后区。这些机场主要受黄色出租车服务。虽然Uber打车在皇后区经历了和布鲁克林区相似的增长,并且黄色出租车深受机场上客量的影响,但Uber打车仍然滞后于黄色出租车和绿色出租车。

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图七、皇后区Uber VS 出租车的上客量

假设我们仅看拉瓜迪亚机场和肯尼迪机场的上客量,我们能够发现,Uber打车量已经上升至每月10万多的上客量。但黄色出租车仍然将80%的机场乘客运送入市区。

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图八、拉瓜迪亚机场和肯尼迪机场的Uber VS 出租车上客量

布鲁克斯区和斯塔顿岛的出租车乘客量显著较低。但你能够从GitHub上看到这两个区的图表。须要注意的是,差点儿没有黄色出租车敢冒险去布鲁克斯区,同一时候Uber打车在斯塔顿岛已经比出租车更流行。

4机场交通

到达纽约市的一个机场须要多长时间?

绝 大部分开往肯尼迪机场的车辆将毫无疑问地选择范威克高速路。摩西已经说明了建议提供一条从曼哈顿中心区到机场的直达线路的目的。可是设计范威克高速路是为 了在最适宜的条件下(好的天气、没有交通事故或者其它的延误)每小时运输2630辆车辆。即使唯一使用范威克高速路的交通是去往肯尼迪机场的交通,这条快 速路的通行能力仍然是不够的。  航空时代才刚刚開始:航空运输非常显然将得到大发展。假设当交通量达到1万人/小时,范威克高速路不能从根本上解决去往肯尼迪机场的交通量。那么当交通量增长到1.5万人/小时?2万人/小时,将会发生什么呢?——罗伯特•卡罗。《权利经纪人:罗伯特•摩西和纽约的衰落》(1974)  一个藏在全部纽约人心中的话题:为了在3个区的机场之中的一个坐上飞机,你须要提前多久叫出租车?当然这取决于非常多因素:是否有严重的堵车?是否联合国在开会?你的出租车司机是否知道捷径来避免范威克上不可避免的瓶颈路段?  我
提取出全部周末去机场的出租车出行记录,计算了一天中每一小时内从每个居民区到机场所花时间的分布情况。

绝大多数情况下,最糟糕的去机场的时间在下午的 4点到5点。比方。在下午4点到5点从中城到肯尼迪机场的出租车出行所花时间的中位数是64分钟!在这段时间内10%的出行者的出行时间超过了84分钟 ——在这样的情况下能坐上飞机是非常幸运的。  假设你在上午10点到11点从中城出发去肯尼迪机场。你将面临出行时间中位数是38分钟的出行。有90%的可能性在50分钟内到达机场。  谷歌地图预计从布莱恩特公园到肯尼迪机场的公共交通的出行时间大约是一个小时,所以依据一天中的时刻、你距离地铁站的距离,你希望的公交出行时间可能比出租车短,同一时候你能够节省一大笔钱。

从其它居民区到达拉瓜迪亚和纽瓦克机场的情况是相似的。你能够通过下拉列表,来查看随意一个居民区到机场的出行时间的图表:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图九、随意一个居民区到机场的出行时间的查询示意  从曼哈顿中城到拉瓜迪亚机场的出行时间

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图十、中城到达拉瓜迪亚机场的出行时间  肯尼迪机场

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图十一、中城到达肯尼迪机场的出行时间  纽瓦克机场

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图十二、中城到达纽瓦克机场的出行时间

5虎胆龙威3的现实情况

布鲁斯•威利斯和塞缪尔•杰克逊是否能在30分钟内从上西城到华尔街? 机 场并非唯一遭遇交通拥堵的目的地。

在虎胆龙威3中。麦克莱恩(威利斯)和沙斯•卡佛(杰克逊)须要在早高峰30分钟内从百老汇72街到华尔街地铁站,否 则炸弹将会爆炸。他们占用了一辆出租车,开着它疯狂地穿过中央公园,跟随一辆救护车,刚好准时到达(当然炸弹也爆炸了)。感谢出租车和轿车委员会的公开数
据,我们能够终于弄明确公众关注的这一事件的现实情况。  麦克莱恩和沙斯•卡佛在上午9点50离开上西城,所以我提取全部(符合下列情况的)出租车乘坐记录: 在上西城西70街到西74街区内的人口普查区上车在市中心区域包含华尔街2/3地铁站下车上车时间在工作日早上的9:20到10:20之间  制作了关于出行时间的直方图:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图十三、百老汇72街到华尔街的出租车出行时间

数 据集中有580条这种出行记录,平均出行时间29.8分钟,出行时间中位数29分钟。这意味着一半的这种出行实际上在指定的30分钟内完毕。如今,我 们的英雄可能须要一些时间去征用一辆出租车,步行到地铁站台。因此,如果我们如果这些须要花费3分钟。开车须要花费27分钟,那么仅有39%甚至更少的出 行可以在27分钟内完毕。当然,在电影里他们好像让这个任务变得非常艰巨,差点儿没有成功的可能性。而在现实中,这仅仅是平均水平。这在电影里似乎是罕见的。但
在现实中实际上比在电影里更easy重现!

6天气是怎样影响出租车和Uber打车的乘客数量

2009年以来,同城出租车出行量最少的日子都非常明显的与天气有关。

出租车出行量最少的几天是: 星期日。2011年8月28日,飓风艾琳。28596次出行星期一。2010年12月27日,北美暴雪,69650次出行星期一,2012年10月29日,飓风桑迪,111605次出行 我 从国家气候数据中心下载了中央公园的每日天气数据。把它增加出租车数据来看我们是否能知道一些其它关于天气和出租车乘客量之间的关系。这里有非常多混淆变量,
包含季节性、博罗出租车造成的年增长、是否天气事件发生在周末或工作日,但看上去降雪对每日的出租车乘客量有显著的负面影响:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图十四、降雪量VS 纽约市日出租车出行量  还有一方面。不过下雨好像不会影响一天总的乘客量:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图十五、降水量 VS纽约市日出租车出行量

由 于Uber打车数据仅仅有少数几个月是可得到的,分析天气对Uber打车乘客量的影响更加困难。

Uber出名是由于它在高需求时间段内动态定价的收费策略, 而高需求时间段通常包含恶劣的天气。这里有2015年上半年少量雨天和下雪天的可获得的Uber打车数据,因此对于每个雨天/下雪天。我计算了出租车的 总出行量和Uber打车的总出行量,将它们与前一周每个服务日的平均出行量进行比較。比方。Uber打车在2015年1月26日的比率是69%,表示这
一天的Uber出行量是1月19日到25日之间日平均出行量的69%:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图十六  虽然这些数据并不能终于证明什么,在2015年的每个天气恶劣的日子。无论是下雨还是下雪,Uber打车相比于前一周日平均出行量的比率要大于出租车。部分原因可能是由于Uber车辆的数量仍然在添加。所以全部情况保持不变,我们希望Uber可以在每一天完毕很多其它的出行。虽然总的出租车出行持续萧条。但对于Uber打车的比率每一天都在上升似乎不可能是随机因素,虽然我也没有理由做出不论什么有力的声明。是否是它的动态定价政策或其它的一些因素,相比于出租车载客能力,Uber打车的载客能力似乎更少受到糟糕天气的影响。

7纽约的深夜出租车指数

这 些天非常多房地产公司提供了关于社区的一些信息:当地学校的排名、可步行性分值、当地企业的类型。

我们能够利用出租车数据来得到一些推论。如通过查看每个 人口普查区在晚上10点到凌晨5点之间(这一时间段我觉得是深夜)发生的出租车上客量的百分比。来看城市的哪些部分夜晚外出比較受欢迎。  GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图十七、纽约市深夜出租车指数

有 些人想要住在一个不夜城,而其它的一些人更倾向于安静。依据深夜出租车指数,假设你在寻找一个拥有充满活力的夜生活的居民区,尝试选择威廉斯堡、布鲁克林 的绿点或布希维克。深夜出租车指数最高的人口普查区是在东威廉斯堡,这里76% 的出租车上客量发生在晚上10点到凌晨5点。假设你坚持住在曼哈顿,那么你的首选是下东区或者肉库区。 相反地。假设你想避免夜晚的骚动。向上东区或者上西城的住宅区移动(假设你还没有在哪里…)。从第五大道向东延伸到公园大道的深夜出租车指数最低,仅有5%的出租车上客量发生在深夜。 这里有一张包含全部人口普查区的地图。上面包含至少5万次的出租车上客,越暗的阴影表示越高的深夜出租车指数。 布鲁克林的夜晚:发生在东威廉斯堡的某个人口普查区的出租车上客量中。76%发生在晚上10点到凌晨5点之间,是城市中最高的比例。在上东区的一些人口普查区内不到5%的出租车上客量发生在深夜。

8“桥和隧道”的聚集

“桥和隧道”的名称,在文字层面上。是指不论什么一个通过一座桥或隧道到达曼哈顿的出行者,他们通常来自新泽西州、长岛或者其它外围区。

通常这个名称被觉得是一种侮辱。虽然外围城区正在兴起。好吧,我们就说时代就是这样。 为 了依据出租车数据预计“桥和隧道”的目的地。我分离出全部周六晚上6点到午夜12点之间的起点在宾夕法尼亚车站附近的出行记录。

宾夕法尼亚车站是新泽西公 共交通和长岛铁路的登陆车站,因此。虽然并非全部人都在周六晚上在宾夕法尼亚车站附近叫出租车,但这至少对于“桥和隧道”来说是一种合适的方式。以下的
居民区的地图显示了这些乘客在哪里下车:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图十八、“桥和隧道”的出行目的地

(周六晚上起点在宾夕法尼亚车站的出租车乘客的下车情况)  对 于“桥和隧道”的出行来说,最受欢迎的目的地是默里希尔、肉库区、切尔西、中城。我们甚至能够更深层次的从个体出行层面来看,详细这些出行在哪里结束。下 面这张是默里希尔的地图。默里希尔是“桥和隧道”人群最受欢迎的目的地,每一个点表示周六晚上起点在宾夕法尼亚车站的一次单程出租车出行:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图十九、默里希尔的“桥和隧道”

正 如上图显示的,在纽约市。默里希尔夜生活主要集中在第三大道,尤其从第32街延伸到35街。出租车数据显示周六晚上从宾夕法尼亚车站出发的出租车乘客多数 在这一区域下车,其它(下车量较多的)地方还包含,在第三大道上沿着第34街向东延伸。以及在第一大道和第二大道之间的第39街上的一个点。再做一些工 作,我们可能可以对这些坐标进行反向地理编码成实际的酒吧名称。或许可以更加科学的扭转《Complex》杂志的经典风格。

9威廉斯堡的北部

依据出租车的活动情况,2009年以来,整个纽约市最有优势的人口普查区位于威廉斯堡的北部,由北14街向北、贝里街向东、北7街向南和东河以西的区域包围:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图二十、威廉斯堡的北部范围

北部居民区以它的夜生活著称:72%的上客量发生在深夜。因为绿色博罗出租车项目的引入,非常难比較各人口普查区、行政区之间2009年至2015年出租车的增长量。可是在这一段时间内。相比于城市内的其它片区,北部片区除了机场外总的出租车上客量有比較大的增长:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图二十一、威廉斯堡的北部出租车上客量

甚 至在博罗出租车项目開始的2013年8月之前。威廉斯堡的北部经历了出租车活动量的戏剧性的增长。从2009年6月仅有500人次/月增长到2013年6 月的1万人次/月,到2015年6月增长到2.5万人次/月。让我们来看一张反映出租车上客的动画地图。看能不能从中了解到什么信息:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图二十二、出租车上客地图动态分布图

这张动画能够让我们精确的找到一些在过去几年内在北部开业的比較受欢迎的商家的精确位置,尤其是在威思大道上的商家: 2012年5月:威思酒店。威思大道和北11街2013年1月:Output夜店,威思大道和北12街2014年3月:Verboten夜店,威思大道和肯特大道之间的北11街 同一时候。我确信未来威廉韦尔和霍斯顿酒店的开发商希望北部不可阻挡的崛起仍在继续,但至少依据出租车数据,2014年中期以来上客量已经保持平稳,这或许预示着区域的受欢迎程度已经达到稳定?

10隐私问题

出 租车和轿车委员会在2013年第一次公布公共的出租车数据,包含了Chris Wong的信息法自由权的申请。每一条出行记录的数据包含匿名的出租车车牌号码。

实际上,像Vijay Pandurangan所描写叙述的那样。解码每一条出行记录的实际车牌号码还是有可能的。

这导致人们对数据隐私问题的大量讨论。出租车和轿车委员会将全部关 于车牌号的信息从近期公布的数据中删除了。 但 数据仍然包含精确的经纬度坐标。这些坐标可能被用来确定人们的居住地、工作地、社交活动地等。

当我们(通过出行数据)观察威廉斯堡北部最热闹的新开的电子
俱乐部时,这是非常有趣的。但当是人们的家时。就变得有些奇怪。纽约人口非常密集,假设你在高峰期乘坐出租车从人口密集的一个区域到达还有一个人口密集的区域。 比方从纽约中央车站到上东城,是不可能有独特的关于你出行的信息可以让别人弄清楚你住在哪里或在哪里工作。 但 假设你要去的某个地方和寻常的出租车路线有一些不同,在这样的情况下,你的出行可能是独一无二的,这也将揭示你的一些信息。比方。我不知道是谁拥有了东汉普 顿地区独特的Further Lane(豪宅区名字)的这些漂亮的海滨房子中的一栋(确切的地址被编辑过,来保护无罪者):

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图二十三、东汉普顿海滨房子

可是我知道布鲁克林高地的准确位置。以及某个人(未必是拥有者)从叫出租车、乘坐了106.6英里、用信用卡付费400美元。当中包含110.50美元小费的时间。如 果出租车和轿车委员会真的想要删除潜在的个人信息。他们应该将整个数据集中的经纬度坐标删除。

公共数据应该是让人们了解出租车系统是怎样服务城市的不同区 域的,因此,出租车和轿车委员会可能应该提供人口普查区来取代坐标,或者不过曼哈顿繁华区域的坐标,但提供可以唯一确定乘客家庭地址的坐标是让人感到过
分的。

11投资银行家

当我们在讨论汉普顿时,我们已经将威廉斯堡的时髦人士和默里希尔的“桥和隧道”包含在内。为什么不看一看出租车数据可以告诉我们关于投资银行家的什么信息,他们是纽约还有一个独特的亚文化群体? 高盛投资公司非常自愿地被拿来分析。由于它的总部在西街200号有一条专用车道。在谷歌地图上标记为“哈德逊河绿道”:  GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图二十四、哈德逊河绿道位置

我们能够分离出全部下车点在这条车道的出租车出行记录来了解高盛投资公司员工——至少是乘出租车的人——早上从哪里来,什么时候到。以下这张图是工作日西街200号下车时间的直方图:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图二十五、高盛投资公司在西街200号工作日出租车下客量

出租车在早上5点開始下客,高峰时间在上午7-9点,下午下客的量越来越少。大概早晨后半段的下客量绝大部分是訪客,与公司员工形成对照。

假设我们把下客限制在早上10点前,下客时间的中位数是7:59,25%的下客发生在7:08之前。

北部的一些街区是花旗集团在格林威治街388号的总部,虽然这一建筑物似乎没有高盛投资公司那样的专用车道,我们仍然能够分离出直接在建筑物前下车的出租车出行数据。来看花旗集团的员工在早上几点达到:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图二十六、花旗集团在格林威治街388号的出租车下客量

花旗集团附近一些傍晚的下客量可能是为了去街对面的酒吧和饭店,但相同早上的下客可能绝大部分是花旗集团的员工。花旗集团早晨到达的统计数据能够和高盛投资公司相比:到达的中位数是早上7:51。25%的下车发生在7:03之前。  在高盛投资公司或花旗集团下车的乘客中基本的上车居民区是:西村;切尔西-熨斗-联合广场
;索和区-特里贝克区  因 此。怎么回事?是银行家们不居住在第14街(或者可能是第23街)?哎,仍然有大量的出行来自更远的拥挤的住宅区。同一时候来自住宅区的人们乘坐地铁、私人小 汽车或者其它交通方式也是非常有可能的,因此。出租车数据绝不是决定性的。

可是,非常酷的小孩们已经在市区居住了一段时间,银行家们为什么要例外呢?

12最后的感想

正如我在前言部分提到的。这篇文章涵盖非常多内容。即使如此,我感觉这些也只触及到所有数据集中可得信息的表面。比方。你是否知道在2009年1月,仅有超过20% 的出租车打车费是使用信用卡结算的。但到2015年6月,这个比例已经增长到60%?

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图二十七、纽约出租车支付方式:现金 VS 信用卡

对于更贵的出租车出行。乘客们如今使用信用卡支付打车费的比例超过75%:

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHP

图二十八、总打的费用:现金 VS信用卡

还有无尽的分析能够做,很多其它的数据集能够与出租车数据合并来进行深入的研究。

花旗自行车项目公布了公共骑行数据。

我想知道是否一个公共自行车系统的引入会对出租车乘客量有重大的冲击?同一时候,或许我们可以量化费尔韦瑟的粉丝数量,通过利用洋基队和大都会队(纽约两支棒球队名)的记录来预计到达洋基体育场和花旗球场的出租车数量是怎样波动的?  有
投资者使用卫星地图来做投资决策,比方,这个假期在一个百货商场的停车场有非常多辆车。或许是时候去买(车)了。你能够对出租车数据做类似的事情:依据肯尼 迪机场捷蓝航空公司和拉瓜迪亚机场达美航空公司的交通量对照,看航空公司的市场份额是否在转移?对木材的需求是否与红钩区有多少人在装载宜家的家具相关?  我已经想象到人们将继续通过信息法自由权的申请来获得Uber数据,因此,我们将会非常有趣的看到,Uber打车在纽约市政府添加的紧张气氛和媒体关于Uber新股首发的不断炒作这双方面的背景下,是怎样运营的。


后。我在曾经关于房利美和房地美(两家提供住房抵押贷款的金融机构)的文章中提到了“媒介数据革命”。相同的思想适用于这篇文章。不久曾经。在日用笔记本 电脑上下载、加工和分析包括11亿条共267GB的原始数据差点儿是不可能的。今天,不仅在苹果笔记本电脑上是可能的。越来越多开源的软件工具可以用来处理 这些数据。我偏向于PostgreSQL和R软件,这些都是实现的细节问题:数据分析的限制因素越来越多的不是计算功率问题,而是人类的好奇心和创造能 力。

GitHub存储库 假设你对获得数据和自己分析比較感兴趣,或者只不过想看一下很多其它的技术细节,转到GitHub存储库。

===========================================================

注:转载原文并无下载地址,下面为超图研究所整理完毕!

--------------------------------------------------------------------------------------

版权全部:超图研究所(www.supermap.com)

Blog:    http://blog.csdn.net/chinagissoft

QQ群:16403743

宗旨:专注于"GIS+"前沿技术的研究与交流,将云计算技术、大数据技术、容器技术、物联网与GIS进行深度融合,探讨"GIS+"技术和行业解决方式

转载说明:文章同意转载,但必须以链接方式注明源地址,否则追究法律责任!

--------------------------------------------------------------------------------------

===========================================================

13 数据下载 (点击图表Yellow或者Green直接下载)

数据描写叙述:此数据集包含在 2014
年及选择月 2015
年完毕在黄色和绿色的出租车。在纽约的全部旅行旅行记录。

记录包含捕获接机的字段和落日期/时间,接送地点、 行程距离、 逐项的票价、 率类型、 付款类型,以及驱动程序报告的乘客数。

数据结构(可点击)

GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHPYellowGIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析-LMLPHPGreen

勘误表
2015/9/22-TPEP 和 LPEP 的旅行数据 Csv 今年
1 月至 2015 年 6 月已更新,以包含一个新的领域[improvement_surcharge] 列出票价覆盖出租车改进附加费或街冰雹制服改进附加费的逐项的部分。

这是全部出差来帮助基金中的士和 SHLs,在 2015
年 1 月 1 日開始的辅助功能 $0.30 附加费。全部的 TPEP 和 LPEP 的旅行数据文件上载向前也将包含这一新领域。

2015

2014

2013

JanuaryYellow 
FebruaryYellow 
MarchYellow 
AprilYellow 
MayYellow 
JuneYellow 
JulyYellow 
AugustYellowGreen
SeptemberYellowGreen
OctoberYellowGreen
NovemberYellowGreen
DecemberYellowGreen

2012

JanuaryYellow 
FebruaryYellow 
MarchYellow 
AprilYellow 
MayYellow 
JuneYellow 
JulyYellow 
AugustYellow 
SeptemberYellow 
OctoberYellow 
NovemberYellow 
DecemberYellow

2011

JanuaryYellow 
FebruaryYellow 
MarchYellow 
AprilYellow 
MayYellow 
JuneYellow 
JulyYellow 
AugustYellow 
SeptemberYellow 
OctoberYellow 
NovemberYellow 
DecemberYellow

2010

JanuaryYellow 
FebruaryYellow 
MarchYellow 
AprilYellow 
MayYellow 
JuneYellow 
JulyYellow 
AugustYellow 
SeptemberYellow 
OctoberYellow 
NovemberYellow 
DecemberYellow

2009

JanuaryYellow 
FebruaryYellow 
MarchYellow 
AprilYellow 
MayYellow 
JuneYellow 
JulyYellow 
AugustYellow 
SeptemberYellow 
OctoberYellow 
NovemberYellow 
DecemberYellow
05-11 20:24