我在Microsoft Azure中使用Jupyter Notebook。由于无法在Azure中上传大文件,因此需要从链接中读取文件。我想读取的csv文件在Kaggle中。

我是这样做的:

!pip install kaggle

import os

os.environ['KAGGLE_USERNAME'] = "*********"

os.environ['KAGGLE_KEY'] = "*********"

import kaggle


但是我现在不知道如何读取文件。
在其他情况下,我使用熊猫来读取文件:
file = pd.read_csv("file/link")
然后我可以清理和整理我的数据。
但这在这种情况下不起作用。
请你帮助我好吗?

我希望能够像pd.read_csv一样读取和操作数据,因为我在数据科学项目中需要它。
这是我希望能够使用的数据集:https://www.kaggle.com/START-UMD/gtd#globalterrorismdb_0718dist.csv

最佳答案

Kaggle已经为使用Python构建的命令行API here提供了广泛的文档,并且可以在here中找到源代码,因此进行反向工程非常简单,以便以Python方式使用Kaggle API。

假设您已经将用户名和密钥导出为环境变量

import os
os.environ['KAGGLE_USERNAME'] = '<kaggle-user-name>'
os.environ['KAGGLE_KEY'] = '<kaggle-key>'
os.environ['KAGGLE_PROXY'] = '<proxy-address>' ## skip this step if you are not working behind a firewall


要么
您已成功从Kaggle帐户页面的API部分下载了kaggle.json,并将此JSON复制到了~/.kaggle/,即系统中的Kaggle配置目录。

然后,您可以在Jupyter笔记本中使用以下代码将此数据集加载到pandas数据框:


导入库


import kaggle as kg
import pandas as pd




在本地下载数据集


kg.api.authenticate()
kg.api.dataset_download_files(dataset="START-UMD/gtd", path='gt.zip', unzip=True)



读取下载的数据集


df = pd.read_csv('gt.zip/globalterrorismdb_0718dist.csv', encoding='ISO-8859-1')

关于python - 如何从Microsoft Azure的Jupyter Notebook中的Kaggle读取文件?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/57051372/

10-12 20:14