我想从NIMH Data Archive下载公共数据集。在他们的网站上创建帐户并接受他们的数据使用协议后,我可以下载CSV文件,该文件包含我感兴趣的数据集中所有文件的路径。每个路径的格式均为s3://NDAR_Central_1/...
。
1在我的个人计算机上下载
在NDA Github repository中,nda-tools Python库公开了一些有用的Python代码,可以将这些文件下载到我自己的计算机上。说我要下载以下文件:
s3://NDAR_Central_1/submission_13364/00m/0.C.2/9007827/20041006/10263603.tar.gz
根据我的用户名(
USRNAME
)和密码(PASSWD
)(用于在NIMH数据存档上创建帐户的用户名),以下代码允许我将此文件下载到个人计算机上的TARGET_PATH
:from NDATools.clientscripts.downloadcmd import configure
from NDATools.Download import Download
config = configure(username=USRNAME, password=PASSWD)
s3Download = Download(TARGET_PATH, config)
target_fnames = ['s3://NDAR_Central_1/submission_13364/00m/0.C.2/9007827/20041006/10263603.tar.gz']
s3Download.get_links('paths', target_fnames, filters=None)
s3Download.get_tokens()
s3Download.start_workers(False, None, 1)
在后台,
get_tokens
的s3Download
方法将使用USRNAME
和PASSWD
生成临时访问密钥,秘密密钥和安全令牌。然后,start_workers
方法将使用boto3和s3transfer Python库将download选定的文件。一切正常!
2下载到GCP存储桶
现在,假设我在GCP上创建了一个项目,想直接将此文件下载到GCP存储桶中。
理想情况下,我想执行以下操作:
gsutil cp s3://NDAR_Central_1/submission_13364/00m/0.C.2/9007827/20041006/10263603.tar.gz gs://my-bucket
为此,我在Cloud Shell中执行以下Python代码(通过运行
python3
):from NDATools.TokenGenerator import NDATokenGenerator
data_api_url = 'https://nda.nih.gov/DataManager/dataManager'
generator = NDATokenGenerator(data_api_url)
token = generator.generate_token(USRNAME, PASSWD)
这给了我访问密钥,秘密密钥和会话令牌。确实,在下面,
ACCESS_KEY
是指token.access_key
的值,SECRET_KEY
是指token.secret_key
的值,SECURITY_TOKEN
是指token.session
的值。然后,我将这些凭据设置为Cloud Shell中的环境变量:
export AWS_ACCESS_KEY_ID = [copy-paste ACCESS_KEY here]
export AWS_SECRET_ACCESS_KEY = [copy-paste SECRET_KEY here]
export AWS_SECURITY_TOKEN = [copy-paste SECURITY_TOKEN here]
最终,我还在家中设置了
.boto
配置文件。看起来像这样:[Credentials]
aws_access_key_id = $AWS_ACCESS_KEY_ID
aws_secret_access_key = $AWS_SECRET_ACCESS_KEY
aws_session_token = $AWS_SECURITY_TOKEN
[s3]
calling_format = boto.s3.connection.OrdinaryCallingFormat
use-sigv4=True
host=s3.us-east-1.amazonaws.com
当我运行以下命令时:
gsutil cp s3://NDAR_Central_1/submission_13364/00m/0.C.2/9007827/20041006/10263603.tar.gz gs://my-bucket
我最终得到:
AccessDeniedException:403 AccessDenied
完整的回溯如下:
Non-MD5 etag ("a21a0b2eba27a0a32a26a6b30f3cb060-6") present for key <Key: NDAR_Central_1,submission_13364/00m/0.C.2/9007827/20041006/10263603.tar.gz>, data integrity checks are not possible.
Copying s3://NDAR_Central_1/submission_13364/00m/0.C.2/9007827/20041006/10263603.tar.gz [Content-Type=application/x-gzip]...
Exception in thread Thread-2:iB]
Traceback (most recent call last):
File "/usr/lib/python2.7/threading.py", line 801, in __bootstrap_inner
self.run()
File "/usr/lib/python2.7/threading.py", line 754, in run
self.__target(*self.__args, **self.__kwargs)
File "/google/google-cloud-sdk/platform/gsutil/gslib/daisy_chain_wrapper.py", line 213, in PerformDownload
decryption_tuple=self.decryption_tuple)
File "/google/google-cloud-sdk/platform/gsutil/gslib/cloud_api_delegator.py", line 353, in GetObjectMedia
decryption_tuple=decryption_tuple)
File "/google/google-cloud-sdk/platform/gsutil/gslib/boto_translation.py", line 590, in GetObjectMedia
generation=generation)
File "/google/google-cloud-sdk/platform/gsutil/gslib/boto_translation.py", line 1723, in _TranslateExceptionAndRaise
raise translated_exception # pylint: disable=raising-bad-type
AccessDeniedException: AccessDeniedException: 403 AccessDenied
<?xml version="1.0" encoding="UTF-8"?>
<Error><Code>AccessDenied</Code><Message>Access Denied</Message><RequestId>A93DBEA60B68E04D</RequestId><HostId>Z5XqPBmUdq05btXgZ2Tt7HQMzodgal6XxTD6OLQ2sGjbP20AyZ+fVFjbNfOF5+Bdy6RuXGSOzVs=</HostId></Error>
AccessDeniedException: 403 AccessDenied
<?xml version="1.0" encoding="UTF-8"?>
<Error><Code>AccessDenied</Code><Message>Access Denied</Message><RequestId>A93DBEA60B68E04D</RequestId><HostId>Z5XqPBmUdq05btXgZ2Tt7HQMzodgal6XxTD6OLQ2sGjbP20AyZ+fVFjbNfOF5+Bdy6RuXGSOzVs=</HostId></Error>
我希望能够将此文件直接从S3存储桶下载到我的GCP存储桶(而无需创建VM,安装Python并运行上面的代码)。为什么临时生成的凭据在我的计算机上可以使用,但在GCP Cloud Shell中却不能使用?
debug命令的完整日志
gsutil -DD cp s3://NDAR_Central_1/submission_13364/00m/0.C.2/9007827/20041006/10263603.tar.gz gs://my-bucket
可以找到here。
最佳答案
您尝试实现的过程称为"Transfer Job"
为了将文件从Amazon S3存储桶传输到Cloud Storage存储桶:
A.单击左上角的汉堡菜单
B.转到存储>传输
C.点击创建转移
在“选择源”下,选择“ Amazon S3存储桶”。
在“ Amazon S3存储桶”文本框中,指定源Amazon S3存储桶名称。
存储桶名称是在AWS管理控制台中显示的名称。
在相应的文本框中,输入关联的访问密钥ID和秘密密钥
使用Amazon S3存储桶。
要在源中指定文件的子集,请单击下面的“指定文件过滤器”
桶字段。您可以根据文件名前缀和
文件年龄。
在“选择目标”下,选择一个水槽或创建一个新的水槽。
要选择现有存储桶,请输入存储桶的名称(不带前缀
gs://),或单击浏览并浏览到它。
要将文件传输到新存储桶,请单击浏览,然后单击新建存储桶
图标。
如果需要,启用覆盖/删除选项。
默认情况下,您的传输作业仅在源版本为
与接收器版本不同。没有其他对象被覆盖或删除。
在“传输”选项下启用其他覆盖/删除选项。
在“配置传输”下,将您的传输作业安排为“立即运行(一次)”或“运行”
您指定的当地时间每天。
单击创建。
在设置转移作业之前,请确保已为您的帐户分配了必要的角色以及here中所述的必需权限。
还应考虑到存储转移服务当前可用于设置转移作业的某些Amazon S3区域(在AMAZON S3选项卡下进行介绍)
传输作业也可以通过编程方式完成。更多信息here
让我知道这是否有帮助。
编辑
即使AWS都支持Transfer Service或gsutil
命令,当前它们也不支持“临时安全证书”。一种解决方法是更改gsutil命令的源代码。
我还代表您提交了Feature Request,建议您加注星标以获取该过程的更新。