我想知道如何从我的import.io提取器中获取抓取数据(通过GUI手动输入的URL列表)。
API文档非常稀缺,并且没有指定我发出的GET请求是实际上启动了搜寻器(并消耗了我的某个搜寻器可用运行)还是仅查询了手动启动的搜寻器的结果。

另外,我想知道如何获取连接器ID,据我了解,提取器不过是专门的连接器,但是当我将extractor_id用作查询API的连接器ID时,我得到的连接器不存在。

我认为可以列出提取器中的URL的一种方式是:

https://api.import.io/store/connector/_search?

_sortDirection=DESC&_default_operator=OR&_mine=true&_apikey=123...


但是我得到的唯一结果是:


  {“ took”:2,“ timed_out”:false,“ hits”:{
      “总计”:0,
      “点击数”:[],
      “ max_score”:0}}


但是,即使我得到更完整的答复,我在文档d中看到的示例结果也没有提及任何包含要从import.io帐户获取的URL的列表或元素。

我正在使用python创建此API

最佳答案

旧版API不适用于任何非旧版连接器,因此您必须使用新的Web Extractor API。不幸的是,没有文档。

幸运的是,通过一些侦听,您可以找到以下调用以列出连接到apikey的连接器:

https://store.import.io/store/extractor/_search?_apikey=YOUR_API_KEY


从这里开始,您检查每个匹配,并验证_type属性是否设置为EXTRACTOR。这将使您能够访问与提取器关联的GUID,以及在创建时为其选择的名称。

然后,您可以执行以下操作以CSV格式从提取器下载最新运行:

https://data.import.io/extractor/{{GUID}}/csv/latest?_apikey=YOUR_API_KEY


在每个Web Extractor的“集成”选项卡中都可以找到它。那里还有其他查询。

希望这可以帮助。

关于python - 列出import.io中的提取器,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/38432877/

10-12 22:02