简单比较Linux命令中字符串查找的效率

来源:岁月联盟 编辑:exp 时间:2011-11-24

 

有时候,我们要简单统计下一个文件中包含某个特殊字符串的行数。

 

我第一个想到的是grep + wc,不知道你想到了什么,不过,我们确实有多种方法。

 

 

 

假如我们的文件叫msg,里面有23380092行数据。

 

某些行是这样的receive: msg1

 

我们的任务是找出这些行的数量。

 

 

 

1. grep方法

 

grep ' msg1' msg | wc -l

 

使用这种方法耗时:1s

 

 

 

2. awk方法

 

awk 'BEGIN{c=1}{if($0 ~ / msg1/) c=c+1}END{print c}' msg

 

使用这种方法耗时:8s

 

 

 

3. 另一种awk方法

 

awk 'BEGIN{FS=":";c=0;}{if($2 == " msg1") c=c+1}END{print c}' msg

 

使用这种方法耗时:14s

 

 

 

4. 文件描述符打开文件遍历

 

 

Shell代码 

#!/bin/bash  

count=0;  

exec 4<msg  

while read line<&4 

do  

if [ "$line" == "receive: msg1" ]; then  

    count=$((count+1))  

fi  

done  

exec 4<&-  

echo $count; 

 

#!/bin/bash

count=0;

exec 4<msg

while read line<&4

do

if [ "$line" == "receive: msg1" ]; then

    count=$((count+1))

fi

done

exec 4<&-

echo $count; 我日,这种方法我跑了N久都没有出结果,效率差到无法忍受。

 

当然脚本本身的正确性,是通过小文件测试过得。

 

 

 

以上几种方法,grep的效率简直神了。这么多数据筛选出来,再有wc统计之后,一共只需要1秒。

 

而采取自己遍历文件的方法,无论是awk还是自己写脚本打开文件,效率都极差。

 

 

 

看来,我们还是懒一点的好。呵呵。

 

摘自liuzhiqiangruc