【594站长】如何批量采集文章?火车头采集器操作

2020-07-20 14:51:45

已经很久没有使用火车头采集器了。想起曾经做站群SEO那段时间,经常会登陆火车头采集器去采集各大相关网站的资讯内容。而且那个时候采集之风盛行,到处是各种采集站,尤其是小说站、文章站等,动不动就是采集数十万的文章,网站做到权重4那是轻而易举。虽然现在大部分网站很少采集了,但采集还是无处不在,因为一些所谓的原创站点,文章内容很有可能也是采集之后再进行加工制作而成的。所以掌握一种采集技巧对SEO站长而言还是很有帮助的。下面分享的便是火车头采集器使用教程,供新手SEO参考。

火车头采集器规则使用教程

  火车头采集器网址规则设置

  第一步、打开火车头采集器,点击【新建】创建一个新任务,填写一个任务名,设置采集网址规则,分别设置列表页采集规则和列表页所在的文章页规则,分为以下两个步骤。

  步骤1:添加起始网址,点击【添加】,选择批量/多页,在地址格式设置需要采集的网页链接,点击【添加】和【完成】即可。此步骤目的是确立有多少个栏目分页链接。

火车头采集器栏目链接获取方法

  采集网页链接技巧说明:首先确定要采集的网页栏目页,分别查看栏目分页1、分页2和分页3链接规律,对比后会发现分页2和分页3链接很像,只有2和3变化了(分页1其实也是如此,为了SEO格式一般做了隐藏,所以分页1和栏目首页链接一致)可以分析是按照等差数列排列,其实绝大多数的网站栏目页分页都是等差数列来排列的,包括尹华峰博客也是如此。因此,在填写规则是选择等差数列,在地址格式处填写分页2的链接,将变化的数字用(*)代替,根据栏目分页的多少设置项数即可。

  步骤2:多级网址获取,点击【添加】,选择网址获取选项,添加提取网址的规则,使用熟练后建议使用结果网址过滤功能,将需要包含的网址和不必包含的网址写进去,可以测试一下规则是否填写正确,然后保存即可。此步骤目的是确立每个栏目下的文章页链接。

火车头采集器文章页网址获取方法

  多级网址获取技巧说明:我们要获取的是该栏目下的文章页链接,去原网页查看栏目分页的源代码,在该源码页找到第一篇文章页链接的位置,然后在上面选取一小段通用代码,一定是每个栏目页都会出现的代码,通常的表现形式会带有list或者article的代码。

  火车头采集器内容规则设置

  第二步、设置采集内容规则,可以在典型页面处填写一篇文章页链接进行测试,分别设置标题采集规则和内容采集规则,也分为两个步骤。

火车头采集内容的规则

  步骤a:双击【标题】标签,一般网页的标题是标签,所以这一步可以默认,如果有需要的话是可以设置内容过滤,以及内容替换的。</span></p> <p bdsfid="153" style="margin: 0px 0px 21px; color: rgb(42, 42, 42); font-family: "Microsoft Yahei", "PingFang SC", "Lantinghei SC", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans; font-size: 18px; text-align: justify;"> <span bdsfid="154">  步骤b:双击【内容】标签,内容提取规则和第一步的步骤2多级网址获取方法是一样的。这里是获取内容,所以是查看内容页的源代码,在该页面找到正文内容,在正文首段上面截取一小段通用代码,该代码也是所有文章页都会出现的,通常的表现形式是article标签为起始,</article>为结束。同样也可以设置内容过滤、内容替换以及标签过滤等,将不需要的信息过滤掉。如不需要图片,可以勾选过滤掉img图片标签。</span></p> <p bdsfid="155" style="margin: 0px 0px 21px; color: rgb(42, 42, 42); font-family: "Microsoft Yahei", "PingFang SC", "Lantinghei SC", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans; font-size: 18px; text-align: center;"> <span bdsfid="156"><img alt="火车头采集内容规则设置技巧" bdsfid="157" src="/uploads/allimg/200720/22544350M-4.png" style="max-width: 100%; border-radius: 8px; height: auto; vertical-align: middle; box-shadow: rgb(114, 118, 134) 1px 2px 2px;" /></span></p> <p bdsfid="158" style="margin: 0px 0px 21px; color: rgb(42, 42, 42); font-family: "Microsoft Yahei", "PingFang SC", "Lantinghei SC", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans; font-size: 18px; text-align: justify;"> <span bdsfid="159"><strong bdsfid="160">  火车头采集器发布内容设置</strong></span></p> <p bdsfid="161" style="margin: 0px 0px 21px; color: rgb(42, 42, 42); font-family: "Microsoft Yahei", "PingFang SC", "Lantinghei SC", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans; font-size: 18px; text-align: justify;"> <span bdsfid="162">  <span bdsfid="163" style="color: rgb(255, 0, 0);">第三步</span>、发布内容设置,勾选需要启用的发布方式,保存即可,然后在任务列表处右键任务名,点击【开始任务】等待采集完成。</span></p> <p bdsfid="164" style="margin: 0px 0px 21px; color: rgb(42, 42, 42); font-family: "Microsoft Yahei", "PingFang SC", "Lantinghei SC", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans; font-size: 18px; text-align: center;"> <span bdsfid="165"><img alt="火车头采集器发布内容设置方法" bdsfid="166" src="/uploads/allimg/200720/225443K96-5.png" style="max-width: 100%; border-radius: 8px; height: auto; vertical-align: middle; box-shadow: rgb(114, 118, 134) 1px 2px 2px;" /></span></p> <p bdsfid="167" style="margin: 0px 0px 21px; color: rgb(42, 42, 42); font-family: "Microsoft Yahei", "PingFang SC", "Lantinghei SC", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans; font-size: 18px; text-align: justify;"> <span bdsfid="168">  <span bdsfid="169" style="color: rgb(255, 0, 0);">注</span>,火车头采集器发布内容分为两个方式,方式一是web在线发布到网站,需要添加发布配置。新手不建议直接发布到网站,建议勾选第二个保存为本地。至于文件模板可以【查看默认模板】,然后选择TXT格式即可。</span></p> <p bdsfid="170" style="margin: 0px 0px 21px; color: rgb(42, 42, 42); font-family: "Microsoft Yahei", "PingFang SC", "Lantinghei SC", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans; font-size: 18px; text-align: center;"> <span bdsfid="171"><img alt="开始采集" bdsfid="172" src="/uploads/allimg/200720/225443GN-6.png" style="max-width: 100%; border-radius: 8px; height: auto; vertical-align: middle; box-shadow: rgb(114, 118, 134) 1px 2px 2px;" /></span></p> <p bdsfid="173" style="margin: 0px 0px 21px; color: rgb(42, 42, 42); font-family: "Microsoft Yahei", "PingFang SC", "Lantinghei SC", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans; font-size: 18px; text-align: justify;"> <span bdsfid="174">  <strong bdsfid="175">结语</strong>:火车头采集器功能十分强大,除了采集文章还可以采集视频等,火车头采集器使用规则并不难,根本不需要懂什么编程之类的语言,只需能看懂一些常用的简单代码即可,操作一两次基本可以完全掌握,是一款非常棒的<strong bdsfid="177" style="color: rgb(109, 8, 92);">SEO工具</strong>。作为网站优化人员,我们采集文章后可以对内容进行修改和调整,让内容更加完善,同时也可以大大提高SEO人员的工作效率。火车头采集器使用方法就介绍到这里了,不懂的朋友可以下方留言,尽我所知给予解答。</span></p> </div> <div class="article-actions"> <div class="top-actions clearfix"> <a class="areport" target="_blank" href="#" ga_event="report_news">投诉</a> </div> <div class="bottom-actions clearfix"> <div class="snsbox"> <div class="snsbox-inner"> <span>分享到:</span> <div class="snszone" > <i class="sns-btn sns-weixin" ga_event="click_share_interactive" ga_label="weixin" data-type="" title="分享到微信"> </i> <i class="sns-btn sns-qzone" ga_event="click_share_interactive" ga_label="qzone" data-type="qzone" title="分享到QQ空间"></i> <i class="sns-btn sns-weibo" ga_event="click_share_interactive" ga_label="tsina" data-type="tsina" title="分享到新浪微博"></i> </div> </div> </div> <a class="abtn abtn-fav" href="javascript:window.external.AddFavorite('http://www.yuanbainian.cn{dede:field name='arcurl'/}','【594站长】如何批量采集文章?火车头采集器操作')">收藏</a> </div> </div> </div> <div id="pagelet-relatednews"> <div class="dtag">相关阅读</div> <ul class="relatednews" data-node="listBox"> <li class="item clearfix" data-node="item"> <div class="item-inner"> <div class="lbox left"> <a href="/shehui/148.html" target="_blank"> <img class="feedimg middle-mode" src="/uploads/allimg/200927/1_092G311445432.png" onload="this.style.opacity=1;" style="opacity: 1;"> </a> </div> <div class="rbox"> <div class="rbox-inner"> <div class="title-box"> <a class="link title" href="/shehui/148.html" target="_blank" data-node="title"> 花小猪打车【新用户领红包】点击进入_仅限未注册用户 </a> </div> <div class="abstract"> <a class="link" href="/shehui/148.html" target="_blank">花小猪打车【新用户领红包】,仅限未注册用户,致力于打造实惠出行,花小猪打车【新用户领红包】仅限未注册用户,主张让出行回归本质! 小提示:微信扫一扫先领红包,或久按图片保存... </a> </div> <div class="footer clearfix"> <div class="left lfooter"> <a class="lbtn source" href="[nav:link]" target="_blank">分享赚 ⋅</a> <span class="lbtn comment">770阅读 ⋅</span> <span class="lbtn time">2020-09-28 </span> </div> </div> </div> </div> </div> </li> <li class="item clearfix" data-node="item"> <div class="item-inner"> <div class="lbox left"> <a href="/shehui/197.html" target="_blank"> <img class="feedimg middle-mode" src="/uploads/allimg/200928/1-20092Q60I2147-lp.png" onload="this.style.opacity=1;" style="opacity: 1;"> </a> </div> <div class="rbox"> <div class="rbox-inner"> <div class="title-box"> <a class="link title" href="/shehui/197.html" target="_blank" data-node="title"> 微信一分钱充10元话费,新人下载美团APP领3-9元话费券 </a> </div> <div class="abstract"> <a class="link" href="/shehui/197.html" target="_blank">微信一分钱充10元 话费 ,最近经常有网友咨询小编,问有没有什么优惠的话费活动,小编告诉他们,最近美团有领领话费活动,新老用户都可以参与,新人花1分钱就可以充10元话费,老... </a> </div> <div class="footer clearfix"> <div class="left lfooter"> <a class="lbtn source" href="[nav:link]" target="_blank">分享赚 ⋅</a> <span class="lbtn comment">827阅读 ⋅</span> <span class="lbtn time">2020-09-28 </span> </div> </div> </div> </div> </div> </li> </ul> </div> <div class="d-union-1"></div> <div class="ad720" style="text-align:center;margin-bottom:20px"> <div id="SOHUCS"></div> </div> </div> <div class="detail-right"> <div id="pagelet-nsubscribe" class="sideGap"> <div class="Pgc_info"> <div class="image_head"> <a target="_blank" href="#"> <img class="Pgc_info_img" onload="this.style.opacity=1" src="/style/7581013616.jpg" alt="" style="opacity: 1;"> </a> </div> <div class="Pgc_name"> <a href="/" target="_blank"> <img src="/style/erweima.jpg"> </div> <div class="article_container"> <div class="Pgc_article"> <ul> <li> <a target="_blank" href="/shehui/148.html">花小猪打车【新用户领红包】点击进入_仅限未注册用户</a> </li> <li> <a target="_blank" href="/shehui/197.html">微信一分钱充10元话费,新人下载美团APP领3-9元话费券</a> </li> </ul> </div> </div> </div> </div> <div class="index-right"> <div id="pagelet-weather" style="display: block;"> <iframe allowtransparency="true" frameborder="0" width="240" height="98" scrolling="no" src="http://tianqi.2345.com/plugin/widget/index.htm?s=2&z=2&t=1&v=0&d=1&bd=0&k=&f=&q=1&e=1&a=1&c=54511&w=240&h=98&align=center"></iframe> </div> <div id="pagelet-commbox"> <a href="/shehui/20200927/148.html" target="_blank"><img src="/style/ad2.jpg"> </div> <div id="pagelet-hotnews" style="display:block;"> <div class="head"> 推荐阅读 </div> <div class="news"> <a href="/shehui/148.html" target="_blank"> 花小猪打车【新用户领红包】点击进入_仅限未注册用户</a> <a href="/shehui/197.html" target="_blank"> 微信一分钱充10元话费,新人下载美团APP领3-9元话费券</a> </div> </div> <a class="goodvoice" href="http://www.yuanbainian.cn/redian/20200721/57.html" target="_blank"><img src="/style/ad3.jpg"></a> <div id="pagelet-hotnews" style="display:block;"> <div class="head">热点阅读</div> <div class="news"> <a href="/shehui/148.html" target="_blank">花小猪打车【新用户领红包】点击进入_仅限未注册用户</a> <a href="/shehui/197.html" target="_blank">微信一分钱充10元话费,新人下载美团APP领3-9元话费券</a> </div> </div> <div id="pagelet-ad_taobao"> <img src="/style/ad4.jpg"> </div> <div id="pagelet-company"> <span class="J-company-name">友情链接:</span> <a href="https://www.maihaolink.com/" target='_blank'>买链接</a> <a href="http://www.yuanbainian.cn/" target='_blank'>创业商机网</a> </div> <div id="pagelet-company"> <span class="J-company-name">© 2022 正规靠谱的创业商机项目-关注真实靠谱的互联网创业项目的博客!</span> <!-- 51la统计代码开始--> <script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script> <script>LA.init({id: "Je4AoW5Wa39rswSS",ck: "Je4AoW5Wa39rswSS"})</script> <!-- 51la统计代码结束--> <!--<span style="color:#ff0000;"><span style="font-family: sans-serif; font-size: 10px; text-align: justify; line-height: normal;"><span style="font-size:24px;"><strong>网站出售(带域名+服务器)联系QQ: </strong></span></span></span>--> </div> </div> </div> </div> <script type="text/javascript" src="/style/core_3d02ee5.js"></script> <script> require('pagelet/nnav/nnav.js').create({ 'isHomePage' : true }); </script> <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </body> </html>