awk是一个强大的文本分析工具,与grep、sed相比,awk在对数据分析并生成报告时,显得有很大的优势。
awk有三个不同的版本:awk、nawk和gawk,在没有做特殊说时的时候默认的就是gawk,gawk是awk的GNU版本。
其中command是真正的awk命令,-F表示域的分隔符,是个可选项。Filename是等待处理的文件
将所有的awk命令写入到一个文件,并使用该文件有X权限,然后awk命令解释器作为脚本的首行,也就是说可以把脚本最开始的 #!/bin/bash 换成 #!/bin/awk
最后直接执行这个脚本文件就行了。
-f 指定要加载的awk脚本,是一个文件。Filename是等待处理的文件
awk的工作流程是这样的:读入一行后(最后面带有” ”的),就按-F指定的分隔符来将该行划分成N个区域,$0表示所有的区域,$1表示第一个域,$2表示第二个域,依此类推,$n表示第n个域。
总结:awk先执行BEGIN内的命令,然后再读入文件中的行,接着就是按照指定的分隔符将该行分成N个区域,然后再来执行模式所对应的动作action。然后,再来读入第二行。。再重复执行action,直到所有的行都处理完成。最后再执行END中的命令。
注意:' // '之间是支持正则表达式的,如果此处只有pattern,而没有action,那么awk默认会把匹配到的行打印出来。
awk中的print还可以使用C语言中的printf来替代。在输出格式比较复杂的时候使用printf函数会比print函数要更直观一些,如下:
还可以使用-v key=value来自定义变量。如下:
awk中的条件语句是从C中借鉴过来的
语法:if (condition) {then-body} else {else-body}
例如使用awk来统计某个目录下的普通文件的大小,不包括子目录的,并过滤掉目录。
循环语句也和C中的一样,支持while、do/while、for、continue、break等关键字。
break和continue常用于循环中;
在awk中,数组的下标可以是数字或字母。一般awk中的数组的作用是从记录中收集信息,用于计算总和、统计单词等。
在awk中要删除一个元素的时候使用 delete array[index]
更多请参见awk官方文档[http://www.gnu.org/software/gawk/manual/gawk.html]
㈡ linux 三剑客(awk、sed、grep)
https://www.runoob.com/linux/linux-comm-awk.html
可以根据文件指定分隔符,像处理表格一样处理文本或序列。通常来处理字段,并基于字段进行过滤,或进行模式匹配。
语法
常用的内建变量
NF :记录的字段数
NR :记录的行号
OFS :输出字段分隔符,默认值与输入字段分隔符一致。
ORS :输出记录分隔符(默认值是一个换行符)
$n :当前记录的第n个字段,字段间由FS分隔
$0 :完整的输入记录
ARGV :包含命令行参数的数组
ARGC :命令行参数的数目
基本用法
awk 脚本
关于 awk 脚本,我们需要注意两个关键词 BEGIN 和 END。
BEGIN{ 这里面放的是执行前的语句 }
END {这里面放的是处理完所有的行后要执行的语句 }
{这里面放的是处理每一行时要执行的语句
以上的应用案例基本包括了常用的awk 的常用用法,更复杂的文本处理则可以通过awk 脚本完成。
https://www.runoob.com/linux/linux-comm-sed.html
与awk 相比,sed在处理文本的行具有更好的效率。
基本语法
参数说明
sed 文件处理命令
包括增加、删除、打印、替换行的内容
应用案例
以上的案例表明,sed 的一些操作可以放在行的末尾,或者放在模式匹配的末尾,或者在大括号内以分号分隔,或者通过-e 命令,实现多点编辑。
https://www.runoob.com/linux/linux-comm-grep.html
grep 查找文件里符合条件的字符串。
语法
应用案例
grep 除了可以查找单个文件中匹配的模式,也可以在目录中包含特定字符的文件查找匹配模式的行。
㈢ linux三剑客的基本使用——grep、sed、awk
grep、sed、awk是linux功能非常强大的三个命令,grep是查找过滤文本,sed是对文本进行编辑替换,awk是对文本进行分析报告。
最简单的理解就是找什么东西用grep,想修改什么内容用sed,想格式化内容用awk。
创建一个文件名为grep_text.txt的文件,并放入内容:
SillyMadman is both a madman and a fool.
Everyone agrees with this sentence.
我要查找在grep_text.txt文件里有Silly的行
命令是: grep Silly grep_text.txt
会返回内容:SillyMadman is both a madman and a fool.
也可以带以下参数,这些我认为可能容易用到的参数,其它的参数需要另行查找
文档,比如可以使用正则进行匹配。
内容相关的
-B, --before context=NUM显示所在行之前的行数
-A, --after context=NUM显示所在行之后的行数
-C, --context=NUM打印输出上下文的行数
过滤内容相关的参数:
-i, --忽略大小写区分
-w,--匹配查找的整个单词
-x,--匹配查找的整行文本
-v, --过滤掉匹配的内容
输出内容相关的参数
-n, --行号打印带有输出行的行号
比如,我要查找在grep_text.txt文件里不区分大小写查找sillymadman,并显示行号和匹配文本的下一行,那么我可以用以下命令查找
grep sillymadman grep_text.txt -i -n -A1
内容返回为
1:SillyMadman is both a madman and a fool.
2-Everyone agrees with this sentence.
总体而言grep的使用方式就是
grep [参数...](查找的内容) (文件名)
grep也经常搭配管道符号"|"使用,比如我要查询某程序的进程,并去掉查找进程本身,那么命令为
ps -ef | grep program_name | grep -v grep
再创建一个文件名为sed_text.txt的文件,并放入内容:
SillyMadman is both a madman and a fool.
Everyone agrees with this sentence.
我想要在第一行下面添加一句:woshishazi
命令是:sed '1a\woshishazi' sed_text.txt
返回内容为:
SillyMadman is both a madman and a fool.
woshishazi
Everyone agrees with this sentence.
但是以上这个命令不会修改原文件,如果需要,需要加上-i
sed -i '1a\woshishazi' sed_text.txt
上面a是代表append,从指定行后面新的一行添加数据,还有其他操作
操作有以下这些
a :从下面一行新增
i :从上面一行插入,
d :删除
c :整行替换
p :打印
s :对指定内容进行替换
下面稍微举下例:
a: sed '1a\woshishazi' sed_text.txt 从第一行后面添加
i: sed '1i\woshishazi' sed_text.txt 从第一行前面插入
d: sed '1d' sed_text.txt 删除第一行
c: sed '1c\woshishazi' sed_text.txt 替换第一行内容为woshishazi
p: sed -n '1p' sed_text.txt 打印第一行,一般搭配-n使用,其他内容就不会再展示
s:这个相对复杂一点需要详细说明一下
sed的参数为 '[行]s/要被替换的内容/新的内容/g'
行是一个可选项,可以选择具体的行进行替换
g代表替换所有匹配到的内容,也可以改为数字,表示第几次匹配到时进行替换
sed 's\SillyMadman\shafengzi\g' sed_text.txt ,将所有SillyMadman替换为shafengzi
输出结果为:
shafengzi is both a madman and a fool.
Everyone agrees with this sentence.
最后再创建一个文件名为awk_text.txt的文件,并放入内容:
1 a
2 b
3 c
4 d
5 f
以空白符作为分隔符这个文本相当于每一行有两个字段。
那么打印第一个字段时 awk '{print 0的话,则代表打印所有字段
awk默认以空白符作为分隔符,也可以指定分割符通过-F
awk -F: '{print $1}' awk_text.txt,以“:”作为作为分隔符
那么返回内容就为
1 a
2 b
3 c
4 d
5 f
相当于只有一列或者说一个字段
然后还可以对前面加上一个正则对行进行匹配内容
awk '/a/{print 2 ~ /a/){print $1}' awk_text.txt
返回内容为
1
㈣ awk和sed有什么区别
Linux sed命令是利用脚本来处理文本文件。sed可依照脚本的指令来处理、编辑文本文件。sed主要用来自动编辑一个或多个文件、简化对文件的反复操作、编写转换程序等。
Linux awk命令是一种处理文本文件的语言,是一个强大的文本分析工具。之所以叫AWK是因为其取了三位创始人Alfred Aho、Peter
Weinberger和Brian Kernighan的Family Name的首字符。
主要区别如下:
1、sed是一种非交互式且面向字符流的编辑器,awk则是一门模式匹配的编程语言,因为它的主要功能是用于匹配文本并处理,同时它有一些编程语言才有的语法,例如函数、分支循环语句、变量等等,当然比起我们常见的编程语言,AWK相对比较简单。
2、sed一般对行进行操作,awk对列进行操作。
3、sed擅长数据修改,awk擅长数据切片,数据格式化,功能最复杂。
4、sed全称Stream Editor,擅长对文件做数据做修改的操作,非常高效。
5、awk更适合格式化文本,对文本进行较复杂格式处理,awk程序对输入文件的每一行进行操作;awk是一门解释型的编程语言,文本处理、输出格式化的文本报表、执行算数运算、执行字符串操作等等。
㈤ Linux正则表达式与通配符
正则表达式:在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索或替换那些符合某个模式的文本内容。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。
只有掌握了正则表达式,才能全面地掌握 Linux 下的常用文本工具(例如:grep、egrep、GUN sed、 Awk 等) 的用法
grep、sed、awk天然支持正则
grep -v代表反选,反向选择匹配到的内容
grep -E代表使用扩展正则
grep -P代表使用Perl正则
sed -r 代表使用扩展正则
正则表达式分为三类(man grep可以看到,分别是basic RegExs,extended RegExs,perl RegExs)
1、基本的正则表达式(Basic Regular Expression 又叫 Basic RegEx 简称 BREs)
2、扩展的正则表达式(Extended Regular Expression 又叫 Extended RegEx 简称 EREs)
3、Perl 的正则表达式(Perl Regular Expression 又叫 Perl RegEx 简称 PREs)
b. 处理过程:查找文本文件中是否包含要查找的 “关键字”(关键字可以是正则表达式) ,默认返回匹配的该行的内容
c. grep|egrep处理文件时,按行处理 |
| sed | sed | sed -r | - | a. 处理对象:文本文件
b.处理操作:对文本文件的内容进行 查找、替换、删除、增加等操作
c. sed 在处理文本文件的时候,按行处理 |
| awk | - | awk | - | a. awk 处理的对象:文本文件
b. awk 处理操作:主要是对列进行操作 |
注意:egrep 或 sed -r 默认使用扩展正则表达式(EREs),一般特殊字符({})可以不转义
grep -E 以及egrep(Extend Regular Expression)
Linux通配符和三剑客的正则表达式是不一样的,因此,代表的意义也有较大的区别 。
通配符一般用户命令行bash环境,而linux正则表达式用于grep, sed, awk场景。
通配符说明
示例:* 的使用:代表任意0-N个字符,代表所有字符
㈥ Linux里面sed和awk命令哪个重要
你好很高兴回答您的问题:
既然接触到了三剑客的sed和awk,对Linux应该是有些认知了吧.下面基于这个给您介绍下.
Linux的秘籍三剑客 grep,sed,awk是Linux命令,甚至是shell编程部分的核心技术.
掌握与数量可以加速处理文本速度.
grep擅长过滤与正则
sed擅长替换与增删改查
awk擅长统计计算与取行取列
快收下下面的宝典修炼吧.
㈦ linux awk命令详解
awk命令是linux下的一个文件管理命令,通常是用于文本和数据进行处理的编程语言,awk命令主要有两个功能,具体介绍如下: