欧美亚洲中文,在线国自产视频,欧洲一区在线观看视频,亚洲综合中文字幕在线观看

      1. <dfn id="rfwes"></dfn>
          <object id="rfwes"></object>
        1. 站長(zhǎng)資訊網(wǎng)
          最全最豐富的資訊網(wǎng)站

          淺析怎么使用PHP做異步爬取數(shù)據(jù)

          說(shuō)到爬蟲(chóng),很多人就會(huì)想到python爬蟲(chóng),因?yàn)樗_實(shí)有很大的優(yōu)點(diǎn)。但其實(shí)PHP也是可以用來(lái)做異步爬取數(shù)據(jù)的,下面就來(lái)給大家介紹一下使用PHP做異步爬取數(shù)據(jù)的方法。

          淺析怎么使用PHP做異步爬取數(shù)據(jù)

          什么是網(wǎng)絡(luò)爬蟲(chóng)?

          網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。

          爬蟲(chóng)有什么用?

          • 做為通用搜索引擎網(wǎng)頁(yè)收集器。(google,baidu)

          • 做垂直搜索引擎.

          • 科學(xué)研究:在線人類(lèi)行為,在線社群演化,人類(lèi)動(dòng)力學(xué)研究,計(jì)量社會(huì)學(xué),復(fù)雜網(wǎng)絡(luò),數(shù)據(jù)挖掘,等領(lǐng)域的實(shí)證研究都需要大量數(shù)據(jù),網(wǎng)絡(luò)爬蟲(chóng)是收集相關(guān)數(shù)據(jù)的利器。

          • 偷窺,hacking,發(fā)垃圾郵件……

          QueryList 簡(jiǎn)介與特性

          QueryList是一套簡(jiǎn)潔、優(yōu)雅、可擴(kuò)展的PHP采集工具(爬蟲(chóng)),基于phpQuery。

          特性:

          • 擁有與jQuery完全相同的CSS3 DOM選擇器

          • 擁有與jQuery完全相同的DOM操作API

          • 擁有通用的列表采集方案

          • 擁有強(qiáng)大的HTTP請(qǐng)求套件,輕松實(shí)現(xiàn)如:模擬登陸、偽造瀏覽器、HTTP代理等意復(fù)雜的網(wǎng)絡(luò)請(qǐng)求

          • 擁有亂碼解決方案

          • 擁有強(qiáng)大的內(nèi)容過(guò)濾功能,可使用jQuey選擇器來(lái)過(guò)濾內(nèi)容

          • 擁有高度的模塊化設(shè)計(jì),擴(kuò)展性強(qiáng)

          • 擁有富有表現(xiàn)力的API

          • 擁有高質(zhì)量文檔

          • 擁有豐富的插件

          • 擁有專(zhuān)業(yè)的問(wèn)答社區(qū)和交流群

          通過(guò)插件可以輕松實(shí)現(xiàn)諸如:

          • 多線程采集

          • 圖片本地化

          • 模擬瀏覽器行為,如:提交Form表單

          • 網(wǎng)絡(luò)爬蟲(chóng)

          環(huán)境要求

          PHP >= 7.0

          如果你的PHP版本還停留在PHP5,或者不會(huì)使用Composer,你可以選擇使用QueryList3,QueryList3支持php5.3以及手動(dòng)安裝。 QueryList3 文檔:http://v3.querylist.cc

          安裝

          通過(guò)Composer安裝:

          composer require jaeger/querylist
          登錄后復(fù)制

          使用

          元素操作

          采集「昵圖網(wǎng)」所有圖片地址

          QueryList::get('http://www.nipic.com')->find('img')->attrs('src');
          登錄后復(fù)制

          采集百度搜索結(jié)果

          $ql = QueryList::get('http://www.baidu.com/s?wd=QueryList');  $ql->find('title')->text(); // 獲取網(wǎng)站標(biāo)題 $ql->find('meta[name=keywords]')->content; // 獲取網(wǎng)站頭部關(guān)鍵詞  $ql->find('h3>a')->texts(); //獲取搜索結(jié)果標(biāo)題列表 $ql->find('h3>a')->attrs('href'); //獲取搜索結(jié)果鏈接列表  $ql->find('img')->src; //獲取第一張圖片的鏈接地址 $ql->find('img:eq(1)')->src; //獲取第二張圖片的鏈接地址 $ql->find('img')->eq(2)->src; //獲取第三張圖片的鏈接地址 // 遍歷所有圖片 $ql->find('img')->map(function($img){     echo $img->alt;  //打印圖片的alt屬性 });
          登錄后復(fù)制

          贊(0)
          分享到: 更多 (0)
          網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)