A. python的应用前景。
目前python被用的还是蛮多的,一些大公司如Google(实现web爬虫和搜索引擎中的很多组件),Yahoo(管理讨论组),NASA,YouTube(视频分享服务大部分由Python编写)等等对Python都很青睐。而国内的豆瓣可以说是给Python予千万宠爱了,它的前台后台清一色的都是Python的身影。另外,我们计算机视觉这块用的很频繁的OpenCV也提供了Python的接口,网上还提供了不少Python的机器学习的库(例如milk,scikit-learn,Pylearn2等),Deep learning的一个知名的Python的库theano,自然语言处理的库NLTK。此外,Python为数学、科学、工程和绘图等提供了有趣的标准库(例如,NumPy ,SciPy和matplotlib等),Python占有的用户群越来越广。
通过网络大概了解了下python的应用领域,如:系统运维、科学计算、人工智能、网络编程(如搜索引擎、爬虫、服务器编程)、web开发、云计算系统、图形化、教育等等等…………好吧,一堆看不懂的,只注意到了“爬虫”、“科学计算”和“图形化”三个关键词,简单理解就是爬数据、分析挖掘和图形展示。
Python的应用
在数据爬虫方面,利用rullib、requests、BeautifulSoup、re、Scrapy等模块进行爬取想要的网站资料,如搜房、淘宝、京东、微信、今日头条、中国知网、新浪、贴吧、金融界、电影论坛等等,真正的实现所见即所得。
在数据处理方面,利用Pandas、Numpy、Scipy、PyMVPA等模块可以帮助你在计算巨型数组、矢量分析、神经网络等方面高效率完成工作。尤其是在教育科研方面,可以发挥出独特的优势。
在数据展示方面,利用ReportLab 、matplotlib、basemap 等模块可以生成相应的统计图表或地图等。另外,利用PyOpenGl模块,可以非常迅速的编写出三维场景。
总之是集数据采集、分析、挖掘及展示等功能于一体,典型的万金油。另外,如果是专业学习python,真是工资高得让人羡慕,具体多少就不说了,感兴趣的可以去查查。
B. 使用python爬虫抓取知网论文标题,作者,发布时间等相关信息
确定抓取方法
首先判断是使用requests还是selenium进行抓取,需根据网页类型选择。在知网搜索内容后,发现链接地址未变,右键检查网络情况,发现页面更新后,链接详情页内容不变,只有框架,没有所需数据。判断需要通过POST请求获取数据。
寻找数据API接口
点击fetch/xhr找到数据详情页,发现数据确实为POST请求,于是尝试使用requests模块进行抓取。POST请求需要使用form_data表单数据,数据在payload中。
代码尝试
使用requests后发现抓取失败,转而尝试使用selenium。
使用selenium进行代码编写与执行
使用selenium后成功获取数据。在使用selenium时,需注意可能出现的网络速度跟不上代码执行速度的问题,可能导致下一页数据未加载完成即开始爬取,引发错误。为避免此类问题,可在点击下一页后添加time.sleep(2)等待两秒,确保数据加载完成,成功爬取。