我在Microsoft Azure中使用Jupyter Notebook。由于无法在Azure中上传大文件,因此需要从链接中读取文件。我想读取的csv文件在Kaggle中。
我是这样做的:
!pip install kaggle
import os
os.environ['KAGGLE_USERNAME'] = "*********"
os.environ['KAGGLE_KEY'] = "*********"
import kaggle
但是我现在不知道如何读取文件。
在其他情况下,我使用熊猫来读取文件:
file = pd.read_csv("file/link")
然后我可以清理和整理我的数据。
但这在这种情况下不起作用。
请你帮助我好吗?
我希望能够像pd.read_csv一样读取和操作数据,因为我在数据科学项目中需要它。
这是我希望能够使用的数据集:https://www.kaggle.com/START-UMD/gtd#globalterrorismdb_0718dist.csv
最佳答案
Kaggle已经为使用Python构建的命令行API here提供了广泛的文档,并且可以在here中找到源代码,因此进行反向工程非常简单,以便以Python方式使用Kaggle API。
假设您已经将用户名和密钥导出为环境变量
import os
os.environ['KAGGLE_USERNAME'] = '<kaggle-user-name>'
os.environ['KAGGLE_KEY'] = '<kaggle-key>'
os.environ['KAGGLE_PROXY'] = '<proxy-address>' ## skip this step if you are not working behind a firewall
要么
您已成功从Kaggle帐户页面的API部分下载了
kaggle.json
,并将此JSON复制到了~/.kaggle/
,即系统中的Kaggle配置目录。然后,您可以在Jupyter笔记本中使用以下代码将此数据集加载到pandas数据框:
导入库
import kaggle as kg
import pandas as pd
在本地下载数据集
kg.api.authenticate()
kg.api.dataset_download_files(dataset="START-UMD/gtd", path='gt.zip', unzip=True)
读取下载的数据集
df = pd.read_csv('gt.zip/globalterrorismdb_0718dist.csv', encoding='ISO-8859-1')
关于python - 如何从Microsoft Azure的Jupyter Notebook中的Kaggle读取文件?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/57051372/