This question already has answers here:
Programmatically reading a web page
(6个答案)
6年前关闭。
如何使用C / C++从给定网址的网页的特定区域提取文本(用阿拉伯语而不是英语)?
例如:给定this wikipedia article的URL,我要提取文章的正文(在下图中突出显示),并丢弃网页的其他部分,例如标题,左右菜单等。只需要将正文解析为字符串即可。
(6个答案)
6年前关闭。
如何使用C / C++从给定网址的网页的特定区域提取文本(用阿拉伯语而不是英语)?
例如:给定this wikipedia article的URL,我要提取文章的正文(在下图中突出显示),并丢弃网页的其他部分,例如标题,左右菜单等。只需要将正文解析为字符串即可。
最佳答案
要仅从Wikipedia页面获取文章文本,请在您的网址中添加 ?action=render
。
然后使用 curl 以获取它。如果您不知道怎么做,请在网上搜索curl / c++教程。您正在寻找这样的东西(只是为了给您一个想法):
#include <stdio.h>
#include <curl/curl.h>
int main(void) {
CURL* curl;
CURLcode result;
curl = curl_easy_init();
curl_easy_setopt(curl, CURLOPT_URL, "https://ar.wikipedia.org/wiki/%D8%B3%D9%8A_%D8%A5%D9%86_%D8%A5%D9%86_%D8%A7%D9%84%D8%B9%D8%B1%D8%A8%D9%8A%D8%A9?action=render");
result = curl_easy_perform(curl);
curl_easy_cleanup(curl);
return 0;
}
关于c++ - 使用C/C++从网页文件中提取文本,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/22970330/
10-10 13:42