我想知道如何从我的import.io提取器中获取抓取数据(通过GUI手动输入的URL列表)。
API文档非常稀缺,并且没有指定我发出的GET请求是实际上启动了搜寻器(并消耗了我的某个搜寻器可用运行)还是仅查询了手动启动的搜寻器的结果。
另外,我想知道如何获取连接器ID,据我了解,提取器不过是专门的连接器,但是当我将extractor_id用作查询API的连接器ID时,我得到的连接器不存在。
我认为可以列出提取器中的URL的一种方式是:
https://api.import.io/store/connector/_search?
_sortDirection=DESC&_default_operator=OR&_mine=true&_apikey=123...
但是我得到的唯一结果是:
{“ took”:2,“ timed_out”:false,“ hits”:{
“总计”:0,
“点击数”:[],
“ max_score”:0}}
但是,即使我得到更完整的答复,我在文档d中看到的示例结果也没有提及任何包含要从import.io帐户获取的URL的列表或元素。
我正在使用python创建此API
最佳答案
旧版API不适用于任何非旧版连接器,因此您必须使用新的Web Extractor API。不幸的是,没有文档。
幸运的是,通过一些侦听,您可以找到以下调用以列出连接到apikey的连接器:
https://store.import.io/store/extractor/_search?_apikey=YOUR_API_KEY
从这里开始,您检查每个匹配,并验证_type属性是否设置为EXTRACTOR。这将使您能够访问与提取器关联的GUID,以及在创建时为其选择的名称。
然后,您可以执行以下操作以CSV格式从提取器下载最新运行:
https://data.import.io/extractor/{{GUID}}/csv/latest?_apikey=YOUR_API_KEY
在每个Web Extractor的“集成”选项卡中都可以找到它。那里还有其他查询。
希望这可以帮助。
关于python - 列出import.io中的提取器,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/38432877/