陕西快乐十分走势图电脑版|最新陕西快乐十分遗漏|
您的位置:数字人首页 » 正文
数字信息港文章采集系统使用说明
发布时间:2005-9-2 9:47:25     来源:www.loelbv.tw

注意:如果采集内容涉及到版权问题一切责任由系统使用者承担,与数字信息网系统无关!

一、使用指南-----项目管理 
1、添加项目: 

(1)基本设置

采集项目名称  如:胶南信息网信息咨讯频道采集 
采集网站名称  采集时会?#28304;?#20026;文章来源 
目标节点栏目  要入库的自己网站的节点
采集对象页   从一个网页  指定范围内 

从一个网页  

如:http://www.xxx.com/news/index.htm

指定范围内

如:http://www.xxx.com/news/index_1.htm
    http://www.xxx.com/news/index_2.htm
    http://www.xxx.com/news/index_3.htm
    http://www.xxx.com/news/index_4.htm
  
上面的列表可以这样填写:

指定范围内:http://www.xxx.com/news/index_{分页}.htm

从 1到 4的页面范围 可用数值标签“{分页}” 
    


(2)列表设置 


        列表: 


       书一般?#21152;心柯及桑?#21015;表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。 


        列表索引页面:你要开始采集的列表页。 


        列表开始/结束标记: 


               平面?#31995;?#20004;点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束标记可以确定你要采集的新闻,有的这里没有设置好结果采集到其它新闻去了。
               比如这是某一列表页面的主要部分代码:

                <table width="98%" border="0" cellspacing="0" cellpadding="3">
                  <tr> 
                       
<td align="left" valign="top"><br>
                           <a href="News.asp?id=1" target=_blank>新闻标题</a><br> 
                           <a href="News.asp?id=2" target=_blank>新闻标题</a><br>
                           ....省略
                           <a href="News.asp?id=50" target=_blank>新闻标题</a>
                       </td>
                 </tr>
              </table>
    
          
          上面部分就是我们要的列表,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以?#31995;?#20195;码中唯一,结束标记在开始标记到结束标记之间的是唯一的。 




(3)链?#30001;?#32622; 


   链接开始/结束标记: 


   这里没设置好采集过程中可能会路?#23601;?#27490; 


   部分代码 


                <table width="98%" border="0" cellspacing="0" cellpadding="3">
                  <tr> 
                       <td align="left" valign="top"><br>
                           <a href="List.asp?type=IT新闻">[IT新闻]</a><a href="New.asp?id=1" target=_blank>新闻标题</a> 
                           <a href="List.asp?type=Pc新闻">[Pc新闻]</a><a href="New.asp?id=2" target=_blank>新闻标题</a>
                           ....省略
                           <a href="List.asp?type=IT新闻">[IT新闻]</a><a href="New.asp?id=50" target=_blank>新闻标题</a>
                       </td>
                 </tr>
              </table>

   红色部分为链接开始/结束标记,注意:如果新闻标题的前面有栏目链接(包括其它的链接,就像上面这个有IT新闻、Pc新闻一样)的,开始标记必须往?#25226;由歟?#25105;以前做的3.62版的录像中开始标记是href=,这个只能用于新闻标题前面没有栏目链接的情况。 


   链接的重新定位: 


   如果新闻的链接特殊,可使用本功能对新闻网?#20998;?#26032;定位,比如有些代码可能是这样: 


          <a href="javascript:window.open(1’)" target=_blank>新闻标题</a><br> 
          <a href="javascript:window.open(’5’)" target=_blank>新闻标题</a><br>
          ....省略
          <a href="javascript:window.open(’50’)" target=_blank>新闻标题</a> 


   把开始/结束标记设置为红色部分,点击一条新闻?#27492;?#30340;真实网页地址,比如第一条新闻的地址是这样,http://www.xx.net/news.asp?id=1,那么绝对链接就设置为http://www.xx.net/news.asp?id={分页}?#32479;?#20102;。 


(4)正文设置 


   标题、正文、作者、来源、关键字及正文分页设置同上,不想重复,这里就不说了。 


(5)采样测试 


   正确采样后完成添加操作。    


   
 
二、使用指南-----过滤设置 
   过滤有简单替换和高级过滤(相对简单替换) 

(1)简单替换

   把一段字符替换为另一段字符,比如

   想把所有的 (图) 字符替换为 空

   内容:(图)

   替换:留空

(2)高级过滤

      比如正文中有这样的代码:

   <iframe src="http://www.xx.com/if/top-new1.html" name="contentFRM" id="contentFRM" scrolling="no" width="326" height="350" 

marginwidth="0" marginheight="0" frameborder="0" align="left"></iframe>

   大家都知道这应该是广告代码吧,想把它过?#35828;?#19981;要它了,可以这样:

   开始标记:<iframe

   结束标记:</iframe>   

   注:像这种代码也可以使用 过滤选项 中的 IFRAME选项 ,如果代码复杂还是推荐使用上面的这各方法。

 
三、使用指南-----历史记录 
      历史记录,记录的是所采集过的新闻网址,保留着该新闻的采集状态,也是判断一条新闻是否重复采集的重要依据。 


四、采集属性: 


保存远程图片:选中的话,如果采集的新闻正文中有图片,将会自动?#30053;?#21040;本地。


标签过滤选项:

这里是常见的要过?#35828;膆tml标签。


IFRAME:如--<IFRAME SRC="广告地址">,比较常见的广告代码。 

OBJECT:如--<Object 代码>代码</Object>,注意--有些正文中有Flash动画、又有这个广告代码,此时推荐使用过滤功能。

SCRIPT :如--<SCRIPT LANGUAGE="javascript1.1" SRC="广告地址"></SCRIPT>,常见的广告代码。

FONT    :如--<font style="font-size:12px;line-height:150%;">,常用于去掉文字的大小、颜色等属性。

A          :如--<a href="http://pic.xx.net">查看更多图片</a>,常用于去掉文字、图片?#31995;?#38142;接,但不会去掉“查看更多图片”。


 

陕西快乐十分走势图电脑版
大河两码中特 中国体育彩票超级大乐透 甘肃快3 服务赚钱安凌云APP 重庆幸运农场软件 幸运农场技巧 十一运夺金直播 新11选5 下载貔喜脉动双升 电子游戏英语怎么说