我试图找出一种循环所有国家的方式。

我在下面的脚本中有3个loops.Loop#2、3工作正常。但循环#1不是。
这是逻辑-主要的Alexa网站www.alexa.com/topsites/countries,该网站有多个国家/地区,每个国家/地区都有2个字符后缀。为每个国家/地区编号加上前缀以获取国家/地区列表。

过程:1.循环#1转到www.alexa.com/topsites/countries并循环所有国家/地区。(此部分无效)2.循环#2每个国家/地区循环所有页面(此部分也有效)3.循环#3为每个页面收集数据。 (这部分正在工作)

var jsLF="\n";

var macro;
macro =  "CODE:";
macro += "VERSION BUILD=9002379" + jsLF;
macro += "TAB T=1" + jsLF;
macro += "TAB CLOSEALLOTHERS" + jsLF;
macro += "TAG POS={{i}} TYPE=A ATTR=HREF:* EXTRACT=TXT" + jsLF;
macro += "SAVEAS TYPE=EXTRACT FOLDER=C:\\   FILE=hiprsites.txt" + jsLF;

var macro1;
macro1  =  "CODE:";
macro1 +=  "VERSION BUILD=9002379" + jsLF;
macro1 +=  "TAB T=1" + jsLF;
macro1 +=  "TAB CLOSEALLOTHERS" + jsLF;
macro1 +=  "URL GOTO=http://www.alexa.com/topsites/countries;{{j}}/ID" + jsLF;

var macroAllC;
macroAllC  =  "CODE:";
macroAllC +=  "VERSION BUILD=9002379" + jsLF;
macroAllC +=  "TAB T=1" + jsLF;
macroAllC +=  "TAB CLOSEALLOTHERS" + jsLF;
macroAllC +=  "URL GOTO=http://www.alexa.com/topsites/countries;{{z}}" + jsLF;


//LOOP #1
//loop all countries take one country and go to next loop
for (var z=0;z<200;z++)
{
iimDisplay(z);
iimSet("z", z);
iimPlay(macroAllC);

//LOOP #2
//loop all the pages for each page get data
for (var j=0;j<20;j++)
{
iimDisplay(j);
iimSet("j", j);
iimPlay(macro1);

//LOOP #3
//loop the current page and get all 25 result
for(var i=1;i<=25;i++)
{
iimDisplay(i);
iimSet("i", i);
iimPlay(macro);
iimSet("i",i);
}//loop individual pages
}//loop macro1

最佳答案

首先,您需要提取临时数组中的所有国家/地区:

var countries = new Array(), i = 4;
do
{
iimDisplay("Extracting " + i);
iimSet("i", i);
iimPlay("CODE:TAG POS={{i}} TYPE=A ATTR=HREF:*countries* EXTRACT=HREF");
  if(iimGetLastExtract()!='#EANF#')
      countries.push(iimGetLastExtract());
        else break;
i++;
}
while(i);


我设置i=4以获得第一个国家AF

然后,您将不得不遍历每个国家页面并提取另一个临时数组中的所有数据:

for(i=0;i<countries.length;i++)
  {
   var j = 2;
   iimSet("url", countries[i]);
   iimPlay("CODE:URL GOTO={{url}}");

   do
    {
    iimDisplay("Loop " + (i+1) + " of " + countries.length + "\nExtracting " + j);
    iimSet("j", j);
    iimPlay("CODE:SET !TIMEOUT_STEP 1\nTAG POS={{j}} TYPE=A ATTR=HREF:*siteinfo* EXTRACT=HREF");
     if(iimGetLastExtract()!='#EANF#')
        temp_pages.push(iimGetLastExtract());
         else
          {
           iimPlay("CODE:TAG POS=1 TYPE=A ATTR=TXT:Next");
            if(iimGetLastError()=='OK')
               j = 1;
                else
                 break;
           }
     j++;
    }
  while(j);
 }


现在,所有国家/地区的所有页面都存储在temp_pages数组中,您将不得不循环并提取所需的数据:

for(i=0;i<temp_pages.length;i++)
     {iimDisplay("Loop " + (i+1) + " of " + temp_pages.length);
      iimSet("url", temp_pages[i]);
      iimPlay("CODE:URL GOTO={{url}}");
      j = 1;
 do
{
iimSet("j", j);
iimPlay("CODE:TAG POS={{j}} TYPE=A ATTR=HREF:* EXTRACT=TXT");
 if(iimGetLastExtract()!='#EANF#')
   {
    iimSet("ext", iimGetLastExtract());
    iimPlay("CODE:SET !EXTRACT {{ext}}\nSAVEAS TYPE=EXTRACT FOLDER=C:\\ FILE=hiprsites.txt");
 }
  else break;
  j++;
  }
   while(j);
}


结果,您将在hiprsites.txt中使用很多锚点(不知道为什么需要此信息)。如果要提取hrefs,则将TAG POS={{j}} TYPE=A ATTR=HREF:* EXTRACT=TXT更改为TAG POS={{j}} TYPE=A ATTR=HREF:* EXTRACT=HREF

祝好运 )

07-24 09:48
查看更多