This question already has answers here:
Programmatically reading a web page

(6个答案)


6年前关闭。




如何使用C / C++从给定网址的网页的特定区域提取文本(用阿拉伯语而不是英语)?

例如:给定this wikipedia article的URL,我要提取文章的正文(在下图中突出显示),并丢弃网页的其他部分,例如标题,左右菜单等。只需要将正文解析为字符串即可。

最佳答案

要仅从Wikipedia页面获取文章文本,请在您的网址中添加 ?action=render

然后使用 curl 以获取它。如果您不知道怎么做,请在网上搜索curl / c++教程。您正在寻找这样的东西(只是为了给您一个想法):

#include <stdio.h>
#include <curl/curl.h>

int main(void) {

    CURL* curl;
    CURLcode result;

    curl = curl_easy_init();
    curl_easy_setopt(curl, CURLOPT_URL, "https://ar.wikipedia.org/wiki/%D8%B3%D9%8A_%D8%A5%D9%86_%D8%A5%D9%86_%D8%A7%D9%84%D8%B9%D8%B1%D8%A8%D9%8A%D8%A9?action=render");

    result = curl_easy_perform(curl);

    curl_easy_cleanup(curl);

    return 0;
}

关于c++ - 使用C/C++从网页文件中提取文本,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/22970330/

10-10 13:42