欧美亚洲中文,在线国自产视频,欧洲一区在线观看视频,亚洲综合中文字幕在线观看

<dfn id="rfwes"></dfn>

<object id="rfwes"></object>

<strike id="n7a4r"></strike>

<s id="n7a4r"></s>

<ol id="n7a4r"></ol>

當(dāng)前位置：站長(zhǎng)資訊網(wǎng) > 編程知識(shí) > 正文

使用正則表達(dá)式找出不包含特定字符串的條目

2019-02-15 分類(lèi)：編程知識(shí) 閱讀(734) 評(píng)論(0)

做日志分析工作的經(jīng)常需要跟成千上萬(wàn)的日志條目打交道，為了在龐大的數(shù)據(jù)量中找到特定模式的數(shù)據(jù)，常常需要編寫(xiě)很多復(fù)雜的正則表達(dá)式。例如枚舉出日志文件中不包含某個(gè)特定字符串的條目，找出不以某個(gè)特定字符串打頭的條目，等等。

使用否定式前瞻

正則表達(dá)式中有前瞻（Lookahead）和后顧（Lookbehind）的概念，這兩個(gè)術(shù)語(yǔ)非常形象的描述了正則引擎的匹配行為。需要注意一點(diǎn)，正則表達(dá)式中的前和后和我們一般理解的前后有點(diǎn)不同。一段文本，我們一般習(xí)慣把文本開(kāi)頭的方向稱(chēng)作“前面”，文本末尾方向稱(chēng)為“后面”。但是對(duì)于正則表達(dá)式引擎來(lái)說(shuō)，因?yàn)樗菑奈谋绢^部向尾部開(kāi)始解析的（可以通過(guò)正則選項(xiàng)控制解析方向），因此對(duì)于文本尾部方向，稱(chēng)為“前”，因?yàn)檫@個(gè)時(shí)候，正則引擎還沒(méi)走到那塊，而對(duì)文本頭部方向，則稱(chēng)為“后”，因?yàn)檎齽t引擎已經(jīng)走過(guò)了那一塊地方。如下圖所示：

使用正則表達(dá)式找出不包含特定字符串的條目

所謂的前瞻就是在正則表達(dá)式匹配到某個(gè)字符的時(shí)候，往“尚未解析過(guò)的文本”預(yù)先看一下，看是不是符合/不符合匹配模式，而后顧，就是在正則引擎已經(jīng)匹配過(guò)的文本看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我們又稱(chēng)為肯定式匹配和否定式匹配。

現(xiàn)代高級(jí)正則表達(dá)式引擎一般都支持都支持前瞻，對(duì)于后顧支持并不是很廣泛，因此我們這里采用否定式前瞻來(lái)實(shí)現(xiàn)我們的需求。

實(shí)現(xiàn)

測(cè)試數(shù)據(jù)：

復(fù)制代碼代碼如下:

2009-07-07 04:38:44 127.0.0.1 GET /robots.txt
2009-07-07 04:38:44 127.0.0.1 GET /posts/robotfile.txt
2009-07-08 04:38:44 127.0.0.1 GET /

例如上面這幾條簡(jiǎn)單的日志條目，我們想實(shí)現(xiàn)兩個(gè)目標(biāo)：

1. 把8號(hào)的數(shù)據(jù)過(guò)濾掉
2. 把那些不包含robots.txt字符串的條目給找出來(lái)（只要Url中包含robots.txt的都給過(guò)濾掉）。

前瞻的語(yǔ)法是：

(?!匹配模式)我們先來(lái)實(shí)現(xiàn)第一個(gè)目標(biāo)――匹配不以特定字符串開(kāi)頭的條目。

這里我們因?yàn)橐懦欢芜B續(xù)的字符串，因此匹配模式非常簡(jiǎn)單，就是2009-07-08。實(shí)現(xiàn)如下：

復(fù)制代碼代碼如下:

^(?!2009-07-08).*?$

用Expresso我們可以看到結(jié)果確實(shí)過(guò)濾掉8號(hào)的數(shù)據(jù)。

接下來(lái)，我們來(lái)實(shí)現(xiàn)第二個(gè)目標(biāo)――排除包含特定字符串的條目。

按照我們上面寫(xiě)法，我照葫蘆畫(huà)瓢了一下：

復(fù)制代碼代碼如下:

^.*?(?!robots.txt).*?$

這段正則用大白話描述就是：開(kāi)頭任意字符，然后后面不要跟著robots.txt連續(xù)字符串，然后再跟著任意個(gè)字符，字符串結(jié)尾。
運(yùn)行測(cè)試，結(jié)果發(fā)現(xiàn)：

使用正則表達(dá)式找出不包含特定字符串的條目

沒(méi)有達(dá)到我們想要的效果。這是為什么呢？我們給上面的正則表達(dá)式加上兩個(gè)捕獲分組調(diào)試一下：

復(fù)制代碼代碼如下:

^(.*?)(?!robots.txt)(.*?)$

測(cè)試結(jié)果：

使用正則表達(dá)式找出不包含特定字符串的條目

我們看到，第一個(gè)分組啥都沒(méi)有匹配到，而第二個(gè)分組卻匹配了整個(gè)字符串。再回過(guò)頭來(lái)好好分析一下剛才那個(gè)正則表達(dá)式。實(shí)際上，當(dāng)正則引擎解析到A區(qū)域的時(shí)候，就已經(jīng)開(kāi)始執(zhí)行B區(qū)域的前瞻工作。這個(gè)時(shí)候發(fā)現(xiàn)當(dāng)A區(qū)域?yàn)镹ull的時(shí)候匹配成功――.*本來(lái)就允許匹配空字符，前瞻條件又滿足，A區(qū)域后面緊跟著的是“2009”字符串，而并不是robots。因此整個(gè)匹配過(guò)程成功匹配到所有條目。

使用正則表達(dá)式找出不包含特定字符串的條目

分析出原因之后我們對(duì)上述的正則進(jìn)行修正，將.*?移入前瞻表達(dá)式，如下：

復(fù)制代碼代碼如下:

^(?!.*?robots).*$

測(cè)試結(jié)果:

使用正則表達(dá)式找出不包含特定字符串的條目

完成

php中用正則實(shí)現(xiàn)不包括某個(gè)字符串的實(shí)現(xiàn)方法

preg_match(“/^((?!abc).)*$/is”, $str);

完整代碼示例

復(fù)制代碼代碼如下:

$str = “dfadfadf765577abc55fd”;
$pattern_url = “/^((?!abc).)*$/is”;
if (preg_match($pattern_url, $str))
{
echo “不含有abc！”;
}
else
{
echo “含有abc！”;
}

結(jié)果為：false，含有abc！

同時(shí)匹配，包含字符串 “abc”，而且不包含字符串 “xyz”的正則表達(dá)式：

preg_match(“/(abc)[^((?!xyz).)*$]/is”, $str);

該方法有效,本人使用方法如下:

(?:(?!</div>).|n)*? //匹配不含</div>的一個(gè)字符串

但最終使用中結(jié)果是發(fā)現(xiàn),該方法效率極其低下,在處理非常短文字(要匹配該正則式的相同部分的有十幾個(gè)字,或者最多幾十個(gè))時(shí)間可以考慮使用,但當(dāng)用于大篇幅文章解析或多處需要改種匹配時(shí)間應(yīng)不使用,考慮用其他方法替代(如:先解析出要匹配該段正則式的文字,然后驗(yàn)證其中是否存在某段文字),正則表達(dá)式對(duì)于匹配不含特定字符串的文字段時(shí)并不是非常有效的方法.

贊(0)

標(biāo)簽：Expresso php 正則表達(dá)式

相關(guān)推薦

網(wǎng)站地圖滬ICP備18035694號(hào)-2

滬公網(wǎng)安備31011702889846號(hào)