ghtorrent-bq数据对于拥有GitHub快照非常有用,但是,尚不清楚何时更新它以及如何获取更多最新数据

最佳答案

(与https://stackoverflow.com/a/42930963/132438相关)

GHTorrent仅在BigQuery上提供其数据的定期快照,而GitHub Archive每天(甚至每小时)更新一次。

拥有更频繁的GHTorrent快照(也许https://twitter.com/gousiosg可以帮上忙)会很棒,但是与此同时,您可以合并两个数据集(查找GHTorrent快照数据,然后从GitHub Archive中添加最新的星星):

#standardSQL
SELECT COUNT(DISTINCT login) c
FROM (
  SELECT login
  FROM (
    SELECT login
    FROM `ghtorrent-bq.ght_2017_01_19.watchers` a
    JOIN `ghtorrent-bq.ght_2017_01_19.projects` b
    ON a.repo_id=b.id
    JOIN `ghtorrent-bq.ght_2017_01_19.users` c
    ON a.user_id=c.id
    WHERE url = 'https://api.github.com/repos/angular/angular'
  )
  UNION ALL (
    SELECT actor.login
    FROM `githubarchive.month.2017*`
    WHERE repo.name='angular/angular'
    AND type = "WatchEvent"
  )
)

07-24 20:59