对不起,这个问题可能很沉闷。我正在尝试使用Python一次从一系列URL中下载文本。它们遵循非常简单的结构:
“ http://example.com/01000/01000/01000.htm”; “ http://example.com/01000/01001/01001.htm”;
依此类推,直到01099。
收到文本后,我需要使用nltk工具包对其进行分析。我尝试在Windows上使用wget,但在命令行中不起作用。我想知道是否有一种类似于glob模块的URL可以一次从该范围下载数据的方法。
(该范围内还有一些空白URL。)
非常感谢你的帮助。
最佳答案
使用字符串处理获得URL(看到您知道URL的结构)后,您可以使用Requests module
例;
import requests
base_url = "http://example.com/01000/01001/0"
for i in range(1000, 1100):
target_url = base_url + str(i) + ".htm"
r = requests.get(target_url)
print(r.text) # python 3 only