linux数据分析_linux下搭建python3数据分析环境

1. linux数据归档、压缩、解压与提取指定文件

高通量数据分析过程中涉及的中间文件，在存储量允许的前提下，可以将其暂存备查。通常可以将这些文件归档或压缩后保存，并打上日期标签，长时间未使用的非重要数据可考虑删除以腾出存储空间。在此总结Linux系统常用的归档与压缩指令。

归档即将多个文件（目录）打包为一个文件，但并不对文件进行压缩。

从归档文件中提取指定文件

从压缩文件中提取指定文件

参考：
1. Linux tar 命令
2. 如何从一个tar包中或者tar.gz包中提取某个文件

2. Linux之awk详解

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在对数据分析并生成报告时，显得尤为强大。
简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。
awk有三个不同的版本：awk、nawk和gawk，未作特别说明，一般指gawk，gawk是awk的GNU版本。
之所以叫awk是因为其取了三位创始人Alfred Aho,Peter Weinberger,和Brian Kernighan的Family Name的首字符。
awk格式：
格式: sed -n '3p' sed.txt
找谁干啥(条件动作)
awk格式
#取出/etc/passwd 第1行的第1列和第3列
awk -F: 'NR==1{print $1.$3}' /etc/passwd
awk 选项 '条件{动作}' /etc/passwd
条件: 哪一行,过滤什么内容
动作: print输出与显示 ,计算....
awk取行：与sed类似
案例01：取出sed.txt的第2行
[root@oldboy81-golden-lnb /oldboy]# cat sed.txt
101.oldgirl,CEO
102.zhangya,CTO
103.li007.COO
104.yy,CFO
105.feixue,CIO
110.li,COCO
[root@oldboy81-golden-lnb /oldboy]# awk 'NR==2' sed.txt
102.zhangya,CTO
#awk '行号等于 2' sed.txt
#NR awk内置变量
Number of Record 记录号(行号)
案例02：取出sed.txt中包含oldboy或li的行
[root@oldboy81-golden-lnb /oldboy]# sed -rn '/oldboy|li/p' sed.txt
103.li007.COO
110.li,COCO
[root@oldboy81-golden-lnb /oldboy]# awk '/oldboy|li/' sed.txt
103.li007.COO
110.li,COCO
案例03：取出文件第2行到第5行内容
#awk '行号大于等于2 并且行号小于等于5' sed.txt
#方法01
awk 'NR>=2 && NR<=5' sed.txt #必会
&& 表示并且.
#方法02
sed -n '2.5p' sed.txt
#方法03 了解
awk 'NR==2.NR==5' sed.txt #从行号是2的行开始到行号是5的行结束( 了解)
案例04：取出文件第3行到最后一行内容
[root@oldboy81-golden-lnb /oldboy]# awk 'NR >= 3' sed.txt
103.li007.COO
104.yy,CFO
105.feixue,CIO
110.li,COCO
[root@oldboy81-golden-lnb /oldboy]# sed -n '3.$p' sed.txt
103.li007.COO
104.yy,CFO
105.feixue,CIO
110.li,COCO
案例05：取出从包含oldboy的行到li的行
[root@oldboy81-golden-lnb /oldboy]# cat sed.txt
101.oldgirl,CEO
102.zhangya,CTO
103.li007.COO
104.yy,CFO
105.feixue,CIO
110.li,COCO
root@oldboy81-golden-lnb /oldboy]# sed -n '/old/,/li/p' sed.txt
101.oldgirl,CEO
102.zhangya,CTO
103.li007.COO
[root@oldboy81-golden-lnb /oldboy]# awk '/old/ , /li/' sed.txt
101.oldgirl,CEO
102.zhangya,CTO
103.li007.COO

3. 怎么用linux系统分析gwas数据

写个脚本不得了在crontab定时一下

tar zcvf /文件存放路径/webpage.tar.gz / 页面路径/
mysqlmp -uroot -p(p后紧跟密码) 库名字 >/备份存放路径/data.sql
chmod 777 你的脚本
然后crontab -e 每天凌晨一点备份里面就写

* 1 * * * /你的脚本路径/backup.sh

够详细了也够入门了命令够少的了效果实现了很简单吧给分吧

4. linux下搭建python3数据分析环境

在LINUX上装python是默认不带IDLE的要自己装
用下面的命令。
sudo apt-get install idle

但是通常大家都是直接用VIM来编写python脚本。

5. Linux怎么使用nmon监控性能，分析系统性能数据

首先要进行下载一个nmon，可以直接通过wget 方法进行下载。

2
下载完成之后，进行解压文件，unzip nmon_x86_12a.zip。

3
然后把解压出三个文件中，对应的自己的系统移动，这里选择的是nmon_x86_rhel45命令为：mv nmon_86_rhel45 /usr/local/bin/nmon。

4
进行直接使用命令中进行输入：nmon -s10 -c60 -f -m /home/，这样就会10s进行获取到分析数据，如果需要进行查看具体，可以根据页面中提示信息，例如需要查看cpu，在键盘中直接进行输入cpu即可

5
然后就会获取到一个nmon的分析的数据，一般在linux的home下，然后可以通过ftp的方法进行下载到windows中。

6
需要到网络进行下载一个nmon analyser ，这个是一个xls的格式文件，打开这个excel，进行点击analyse nmon data的选项，进行加载从linux中下载到windows中nmon文件。

7
加载完成之后，就可以通过xls中数据，进行分析相关的数据，及数据上变化。

6. Linux相关使用介绍

Linux命令分为内部命令（shell自带的命令）和外部命令（不是shell自带的命令，由用户安装），怎么鉴别是内部命令和外部命令呢？可以通过type命令来鉴别
什么是shell呢？shell是一个程序，常用的有bash shell，平时我们通过用户名和密码登录到linux，其实就是登录到bash shell程序，通过bash shell来操作linux内核

命令执行流程

那岂不是说使用外部命令效率会很慢吗？
其实一点都不慢，它会去PATH环境变量设置的一堆目录中查找

cd is a shell builtin 表示内部命令
ifconfig is hashed (/usr/sbin/ifconfig) 表示外部命令

cd命令切换文件夹
现在我们cd /usr/sbin

通过cat命令查看文件内容
通过cat ifconfig来查看ifconfig，发现是乱码文件

file命令查看文件类型
输入file ifconfig

从输出信息可以看出它是一个二进制可执行文件

whereis命令查看文件位置

find / -name jdk

echo命令用户打印信息，相当于java中的system.out.println

可以使用回车查看下一行、空格查看下一页、q退出

一般使用man查看外部命令，help查看内部命令

查看linux下的应用和应用的进程号

当我们在这个窗口中输入kill -9 1593的话，另外一个正在编辑文件的进程就会退出

在前面我们已经讲过，bash shell程序在执行命令的一个过程及原理，对于外部命令，它会去PATH这个环境变量中查找执行命令所在的路径，当然在去PATH中寻找之前会先去hash表中查找这个命令有没有执行过，执行过的话会记录在hash表中，则此次查找只需从hash表中就可以很方便的找到

查看分区信息 -h 表示文件大小后面会显示文件大小

查看文件的使用情况

使用man ls 查看ls命令的相关介绍
-a：可以查看隐藏文件
-l：以长列表的形式展示文件列表信息

第一位 -：表示文件，d表示文件夹，b表示块设备文件，c表示字符设备文件，p表示命令管道文件，s表示套接字文件，从第二位开始往后数九位表示属主权限（每三位一组 rwx：读、写、执行），第11位表示的点表示分隔符，点后面的数字表示文件有几个硬连接，第一个root代表属主名，第二个root代表这个第一个root所在的组织，接下来的5表示文件大小，5后面的日期表示文件最后一次修改的时间， 1.txt代表的文件或文件夹的名称
小结：

切换文件目录
cd 文件路径
cd：切换到家目录
cd ~：回到家目录（也就是家目录）
cd ..：回到上一级目录

创建目录
mkdir 目录名
mkdir -p 目录名，级联创建目录

cp 被拷贝的文件（可以是路径加文件名）拷贝到哪个位置

复制目录使用
cp -r 被拷贝的目录目标位置

移动命令
mv 被移动的文件目标位置+目标文件名

rm 文件名（此中方式的删除需要再输入 yes）
rm -f 文件名，无提示直接删除
rm -rf 文件夹

ln命令默认创建的是硬连接

ln profile a：将a硬连接到profile文件上，他们底层共用一个文件，删除他们之中任何一个
对另外一个没有影响，同时你也可以使用 ll -i命令查看文件编号

ln -s profile a：将a软连接到profile文件，当你访问a的时候会去访问profile，profile再访问底层文件，当将profile删除了之后a就无法访问了

一致时间、创建新文本
touch 已存在的文件：会将文件的访问时间、更新时间、改变时间(即上面stat中介绍的三个时间)变成一致
touch 不存在的文件：会创建一个新的文本

cat命令查看文件内容
cat 1.txt：查看单个文件内容
cat 1.txt 2.txt：查看多个文件

more 1.txt：以分页的形式查看文件内容，按空格：下一页，回车：下一行（注意它不能回看，回看的话只能用鼠标回轮）

less 1.txt：使用空格下一页， b看上一页，回车看下一行
注意less的话会把整个文件内容加载到内存，如果文件比较大的话，建议使用more命令查看

head命令默认查看文件前10行内容， head 1.txt
head -5 1.txt：查看文件前5行的内容

tail命令默认查看文件后10行的内容 tail 1.txt
tail -5 1.txt：查看文件后5行内容
tail -f 1.txt：实时查看文件增量内容

cat b.txt | head -3：管道左边的命令会以输出流的形式交给管道右边的命令，管道右边以输入流的形式接收并且拼到命令的右边

注意：ls -l 不能接受前面的输出流，这个怎么办呢？可以通过xargs命令

vi文本编辑器末行模式的操作

set nu(number的缩写)：设置行号
set nonu(nonumber的缩写)：取消行号
set readonly：设置为只读

n：往下查找
N：往上查找

n：往上查找
N：往下查找

一般我们会在/etc/profile文件中设置一些环境变量，但是在设置的时候可能没有记住目录，这时候我们可以使用如下方式

效果

格式 :s/str1/str2/gi
/ : 临近s命令的第一个字符边界字符，也可以是 @或#
g : 一行内全部替换
i : 忽略大小写

范围
n：行号
. ：当前光标行
+n ：偏移n行
-3
%：全文

全部删除 1,$d

删除前三行

删除倒数第2行

光标挪到最后一行按下小写的p
效果图

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特殊字符、及这些特定字符的组合组成一个"规则字符串"，这个"规则字符串"用来表达对字符串的一种过滤逻辑。

\ ：转义字符
. ：匹配任意单个字符
[1249a] ：匹配中括号中任意字符
[^12] ：匹配中括号中任意非1和2的字符
[a-k] ：匹配中括号中任意a~k中的一个字符
^ ：行首
$ ：行尾
<abc> ：单词首尾边界（匹配单词abc）
| ：连接操作符
(,) ：选择操作符
\n ：反向引用

? ：匹配0到1次

在Linux中通过grep命令使用正则表达式来匹配信息

f ：选择显示的列
s ：不显示没有分隔符的行
d ：自定义分隔符

n ：按数值排序
r ：倒序
t ：自定义分隔符
K ：选择排序列
u ：合并相同行
f ：忽略大小写

sed：行编辑器，以行为单位进行处理，可以将数据进行替换、删除、新增、选取等特定工作

sed [options] 'Command' file ...

-n ：静默模式，不再默认显示模式空间(内存)中的内容
-i ：直接修改原文件
-e SCRIPT ：可以同时执行多个脚本
-f /PATH/TO/SED_SCRIPT
-r ：表示使用扩展正则表达式

d ：删除符合条件的行
p ：显示符号条件的行
a \string ：在指定的行后面追加新行，内容为string
\n ：可以用于换行
i \string ：在指定的行前面添加新行，内容为string
c ：取代，c的后面可以接字符串
s /pattern/string/修饰符：查找并替换。默认只替换每行中第一次被模式匹配到的字符串
g ：行内全局替换
i ：忽略字符大小写
s///：s###，s@@@
()，\1，\2

sed "2p" ctxt
但是在执行下面的操作的时候文本中的内容都显示出来了，它的原理是，打印匹配的行，以及文本中所有的内容

注意：它删的是内存中的数据，而不是目标文件

sed -i "3d" ctxt

它的原理是先把内存中的第3行数据删除，然后再把内存中的数据写回原文件，这时原文件中的第三行就没有了

使用变量的形式

awk是一个强大的文本分析工具。
相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。
简单来说awk就是把文件逐行的读入，（空格，制表符）为默认分隔符将每行切片，切开的部分再进行各种分析处理。

awk -F '{pattern + action}' {filenames}
支持自定义分隔符，默认是以空格分隔的
支持正则表达式匹配
支持自定义变量，数组 a[1] a[tom] map(key)
支持内置变量
ARGC 命令行参数个数
ARGV 命令行参数排列
ENVIRON 支持队列中系统环境变量的使用
FILENAME awk浏览的文件名
FNR 浏览文件的记录数
FS 设置输入域分隔符，等价于命令行 -F选项
NF 浏览记录的域的个数
NR 已读的记录数
OFS 输出域分隔符
ORS 输出记录分隔符
RS 控制记录分隔符
支持函数
print、split、substr、sub、gsub
支持流程控制语句
if、while、do/while、for、break、continue

练习题
passwd文件内容解读：
passwd文件中每行由7个字段组成，字段与字段之间由：分隔，第一个字段代表用户名，第二个字段表示用户对应的加密后的密码，第三个字段表示userId，第四个字段表示groupId，第五个字段表示对用户的描述，第六个字段表示用户的家目录，第七个字段表示的是这个用户默认使用的shell

其中$0表示整行

统计报表：合计每人1月工资， 0：manager，1：worker

将awk后面的内容封装到一个文件中（封装的脚本要遵循一定的格式）

qqq文件的内容格式

7. Linux入门系列——awk命令详解

awk是一个强大的文本分析工具，与grep、sed相比，awk在对数据分析并生成报告时，显得有很大的优势。

awk有三个不同的版本：awk、nawk和gawk，在没有做特殊说时的时候默认的就是gawk，gawk是awk的GNU版本。

其中command是真正的awk命令，-F表示域的分隔符，是个可选项。Filename是等待处理的文件

将所有的awk命令写入到一个文件，并使用该文件有X权限，然后awk命令解释器作为脚本的首行，也就是说可以把脚本最开始的 #!/bin/bash 换成 #!/bin/awk

最后直接执行这个脚本文件就行了。

-f 指定要加载的awk脚本，是一个文件。Filename是等待处理的文件

awk的工作流程是这样的：读入一行后(最后面带有” ”的)，就按-F指定的分隔符来将该行划分成N个区域，$0表示所有的区域，$1表示第一个域，$2表示第二个域，依此类推，$n表示第n个域。

总结：awk先执行BEGIN内的命令，然后再读入文件中的行，接着就是按照指定的分隔符将该行分成N个区域，然后再来执行模式所对应的动作action。然后，再来读入第二行。。再重复执行action，直到所有的行都处理完成。最后再执行END中的命令。

注意：' // '之间是支持正则表达式的，如果此处只有pattern,而没有action，那么awk默认会把匹配到的行打印出来。

awk中的print还可以使用C语言中的printf来替代。在输出格式比较复杂的时候使用printf函数会比print函数要更直观一些，如下：

还可以使用-v key=value来自定义变量。如下：

awk中的条件语句是从C中借鉴过来的

语法：if (condition) {then-body} else {else-body}

例如使用awk来统计某个目录下的普通文件的大小，不包括子目录的，并过滤掉目录。

循环语句也和C中的一样，支持while、do/while、for、continue、break等关键字。

break和continue常用于循环中；

在awk中，数组的下标可以是数字或字母。一般awk中的数组的作用是从记录中收集信息，用于计算总和、统计单词等。

在awk中要删除一个元素的时候使用 delete array[index]

更多请参见awk官方文档[http://www.gnu.org/software/gawk/manual/gawk.html]

8. Linux为日常操作系统即将成为数据分析师要怎么熟悉我是菜鸟，请高手指点迷津。谢谢。

从基本命令开始掌握，如下几个方面：文件命令、文件系统命令、进程管理命令、网络管理命令。熟悉后，再掌握shell的基本编程。最后掌握学习linux的集群构建，linux系统性能调优等。一步一步来吧。

9. linux下tcpmp怎么分析数据包

用简单的话来定义tcpmp，就是：mp the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpmp可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。
实用命令实例
默认启动
tcpmp
普通情况下，直接启动tcpmp将监视第一个网络接口上所有流过的数据包。

监视指定网络接口的数据包
tcpmp -i eth1
如果不指定网卡，默认tcpmp只会监视第一个网络接口，一般是eth0，下面的例子都没有指定网络接口。

监视指定主机的数据包
打印所有进入或离开sundown的数据包.

10. linux运维和数据分析那个好

建议在Linux运维行业继续深造，Linux运维很容易达到20K+，不知道你目前的薪资是什么情况。IT行业还是靠能力。尤其有大厂的工作经历，提升一下能力，很容易实现的。Linux运维很有很多的岗位及发展方向。
1） Linux运维岗位及工作内容
互联网Linux运维工程师是一个融合多学科(网络、系统、开发、数据库、安全、存储等)的综合性技术岗位，甚至还需要沟通、为人处世、培训、销售、管理等非技术能力，这给运维工程师提供了一个广阔的发展空间。
2) Linux运维工程师岗位职责
一般从企业入门到中级Linux运维工程师的工作大致有：挑选IDC机房及带宽、购买物理服务器或云服务、购买及使用CDN服务、搭建部署程序开发及用户的访问系统环境(例如:网站运行环境)、对数据进行备份及恢复、处理网站运行中的各种故障（例如：硬件故障、软件故障、服务故障、数据损坏及丢失等）、对网站的故障进行监控、解决网站运行的潜在安全问题、开发自动化脚本程序提高工作效率、规划网站架构、程序发布流程和规范，制定运维工作制度和规范、配合开发人员部署及调试产品研发需要的测试环境、代码发布等工作需求，公司如果较小可能还会兼职网管、网络工程师、数据库管理员、安全工程师、技术支持等职责。
涉及到的Linux平台上的运维工具有：Linux系统,Linux基础命令,Nginx,Apache,MySQL,PHP,Tomcat,Lvs,Keepalived,SSH,Ansible,Rsync,NFS,Inotify,Sersync,Drbd,PPTP,OpenVPN,NTP,Kickstart/Cobbler,KVM,OpenStack,Docker,，K8S，Mongodb,Redis,Memcached,Iptables,SVN,GIT,Jenkins,网络基础,Shell/Python开发基础等，除此之外还可能涉及到交换机、路由器、存储、安全、开发等知识。
运维工程师还包括一些低端的岗位，例：网络管理员、监控运维、IDC运维，值班运维
职业发展方向：Linux运维工程师、系统架构师、数据库工程师、运维开发工程师、系统网络安全工程师、运维经理、运维总监
3) Linux中级运维工程师应用软件阶段。
Linux系统,Linux基础命令,Nginx,Apache,MySQL,PHP,Tomcat,Lvs,Keepalived,SSH,Ansible,Rsync,NFS,Inotify,Sersync,Drbd,PPTP,OpenVPN,NTP,Kickstart/Cobbler,KVM,OpenStack,Docker,Mongodb,Redis,Memcached,Iptables,SVN,GIT,Jenkins,网络基础,Shell/Python开发基础
4)Linux运维架构师岗位职责
运维架构师是运维工程师的高级阶段，并没有明确的岗位界限区分，运维架构师一般来说是除了对运维工程师应用的开源工具熟练掌握之外，更多的是用思想来运维了，即DevOps的落地，各种企业运行过程中的解决方案提出和执行，例如：根据公司的现状可以设计各类运维解决方案的能力：
1、自动化代码上线（SVN/GIT+Jenkins+MVN）解决方案；
2、云计算部署架构及Docker微服务架构方案；
3、服务自动化扩容方案（KVM/OpenStack/Docker+Ansible+Zabbix）；
4、10万并发的网站架构、秒杀系统的架构及解决发你个案；
5、多IDC机房互联方案、全网数据备份解决方案、账号统一认证方案；
6、数据库、存储及各重要服务节点的集群和高可用方案。
7、各网络服务的极端优化方案、服务解耦/拆分。
8、运维流程、制度、规范等的建设和推行。
9、沟通能力、培训能力、项目管理、业务需求分析及落地执行力等。
这里仅举几个例子，实际工作中会有更多，运维架构师的工作，其实就是解决企业中的用户访问量不断增大带来的痛点，最终达到高效、优质的为客户提供网站及业务服务。
总的来说：Linux运维架构师更多的是根据企业日益增长的访问量需求，利用若干运维工具组合加上经验思想，形成解决业务需求方案的阶段，当然也不排除对运维工具进行二次开发以及可视化展示运维数据的阶段（开发软件平台），这个阶段涉及的工具会非常多，几乎市面好用的开源工具都在备选之列，在一线城市互联网公司的薪资范围15000-50000/月。
职业方向：高级数据库工程师、运维开发工程师、运维经理、运维总监、技术总监
运维架构师：将多个工具组合，加上思想经验，形成方案，用思想和经验赚钱的阶段。
技术的提升仅是量的积累，思想的提升才是质的飞跃！——老男孩
5)数据库运维工程师
众所周知，数据几乎是所有企业的生命线，所以数据库工程师的地位和薪水一般会比普通运维工程师高一些，主要工作内容就是保证数据库数据的安全以及高效地为用户提供各种服务。

导航:首页 > 操作系统 > linux数据分析

linux数据分析

与linux数据分析相关的资料