对不起,这个问题可能很沉闷。我正在尝试使用Python一次从一系列URL中下载文本。它们遵循非常简单的结构:

http://example.com/01000/01000/01000.htm”; “ http://example.com/01000/01001/01001.htm”;

依此类推,直到01099。

收到文本后,我需要使用nltk工具包对其进行分析。我尝试在Windows上使用wget,但在命令行中不起作用。我想知道是否有一种类似于glob模块的URL可以一次从该范围下载数据的方法。

(该范围内还有一些空白URL。)

非常感谢你的帮助。

最佳答案

使用字符串处理获得URL(看到您知道URL的结构)后,您可以使用Requests module

例;

import requests

base_url = "http://example.com/01000/01001/0"
for i in range(1000, 1100):
    target_url = base_url + str(i) + ".htm"
    r = requests.get(target_url)

    print(r.text) # python 3 only

08-27 08:03