总的来说,BigQuery 和 SQL 非常新!我在网上发现了这个令人惊叹的 Reddit 评论数据集 (https://bigquery.cloud.google.com/table/fh-bigquery:reddit_comments.2015_05),并想对评论进行一些定性分析。
问题:如何将搜索范围缩小到仅检索 r/cancer subreddit 和 r/diabetes subreddit 中的评论和时间戳?我应该使用的确切查询是什么?
我知道这可能真的很容易,但我在过去的 4-5 个小时里都在做这件事,但仍然无法弄清楚......
最佳答案
SELECT subreddit, COUNT(*) c
FROM [fh-bigquery:reddit_comments.2015_05]
WHERE subreddit IN ('cancer', 'diabetes')
GROUP BY 1
LIMIT 1000
Query complete (1.6s elapsed, 595 MB processed)
Row subreddit c
1 diabetes 6508
2 cancer 1923
对于原始评论和时间戳:
SELECT subreddit, created_utc, body
FROM [fh-bigquery:reddit_comments.2015_05]
WHERE subreddit IN ('cancer', 'diabetes')
LIMIT 10
关于google-bigquery - BigQuery Reddit 数据集 : Collecting Comments from Subreddits?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39385969/