总的来说,BigQuery 和 SQL 非常新!我在网上发现了这个令人惊叹的 Reddit 评论数据集 (https://bigquery.cloud.google.com/table/fh-bigquery:reddit_comments.2015_05),并想对评论进行一些定性分析。

问题:如何将搜索范围缩小到仅检索 r/cancer subreddit 和 r/diabetes subreddit 中的评论和时间戳?我应该使用的确切查询是什么?

我知道这可能真的很容易,但我在过去的 4-5 个小时里都在做这件事,但仍然无法弄清楚......

最佳答案

SELECT subreddit, COUNT(*) c
FROM [fh-bigquery:reddit_comments.2015_05]
WHERE subreddit IN ('cancer', 'diabetes')
GROUP BY 1
LIMIT 1000

Query complete (1.6s elapsed, 595 MB processed)

Row subreddit   c
1   diabetes    6508
2   cancer      1923

对于原始评论和时间戳:
SELECT subreddit, created_utc, body
FROM [fh-bigquery:reddit_comments.2015_05]
WHERE subreddit IN ('cancer', 'diabetes')
LIMIT 10

关于google-bigquery - BigQuery Reddit 数据集 : Collecting Comments from Subreddits?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39385969/

10-13 07:00