网络爬虫,爬取二手房源
一、相信有很多朋友在学习python后,一定都有过使用这门语言编写爬虫的想法。刚刚学习了python的小白(因为很白所以叫小白)我也是如此。这里小白和小白的伙伴就以python新手的身份分享一下我们使用python爬虫爬取二手房网的房源信息的过程。如有大佬路过,求大佬指出其中需要改进的地方,小白我感激不尽。
编写爬虫之前,我们首先应该搞清楚爬虫到底是干什么的。这里语言表达力不足的小白只好借用度娘上的答案向大家介绍一下:
网络爬虫,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
大概了解爬虫后,我们就要开始做编写爬虫的准备工作了。首先是我们已经确定是用python语言进行编写,然后我们就要确定使用什么开发平台和环境了,这里,小白使用的是Windows平台(准备之前查了一些资料,看到一些大佬说就开发而言,linux比windows用起来舒服,所以大家也可以试试linux),开发环境是pycharm2021社区版(开始下载了专业版,但是发现每天打开都需要输入激活码,并且对于我们一般人来说社区版也够用了,于是重新下载了社区版)。
接下来应该就是要准备编写爬虫了,其实,在小白看来,编写爬虫其实就是各种库的应用。首先说一下我们的大概思路:爬取数据解析数据存储数据。第一步我们需要安装我们需要的库,安装方法网上很多,这里就不具体说了。接下来是导入我们需要的库,导入库的语句为import库;例如在我的代码中需要的库导入如下:
coding:utf8fromurllibimportrequestimportreimporttimeimportthreadingimportrandomimportpymysqlfromhashlibimportmd5fromuainfoimportualistfromfakeuseragentimportUserAgentimportsysclassstudy():definit(self):self。urlhttps:bj。lianjia。comershoufangpg{}1。请求函数defgethtml(self,url):uaUserAgent()print(ua。chrome)headers{UserAgent:ua。chrome}reqrequest。Request(urlurl,headersheaders)resrequest。urlopen(req)本网站使用utf8的编码格式htmlres。read()。decode(utf8,ignore)returnhtml2。正则解析函数defrefunc(self,rebds,html):patternre。compile(rebds,re。S)rlistpattern。findall(html)returnrlist格式化,正则表达式匹配页面defparsehtml(self,oneurl):调用请求函数,获取一级页面onehtmlself。gethtml(oneurl)print(onehtml)rebds(。?)rebds。?rebds(。?)。?spanclassgoodhousetagtagBlock(。?)spanrebds(。?)。?spanclassgoodhousetagtagBlock(。?)spanspanclasspositionIconspan(。?)(。?)spanclasshouseIconspan(。?)spanclassstarIconspan(。?)(。?)iispanclass(。?)spani万ispan(。?)spanlinklistself。refunc(rebds,onehtml)print(linklist)forlinkinlinklist:print(link)print(100)对于部分正常可以获取到最大页码数,可以采用defgetmaxpage(self,oneurl):onehtmlself。gethtml(oneurl)print(onehtml)rebds(。?)print(rebds)linklistself。refunc(rebds,onehtml)print(linklist)returnlinklist〔linklist。len()1〕〔1〕;defrun(self):foriinrange(100):urlself。url。format(i)定时抓取当前最新的数据self。parsehtml(url)输出当地时间print(time。strftime(YmdH:M:S,time。localtime()))设置一个定时器,循环输出时间timerthreading。Timer(66060,self。run)启动线程timer。start()self。parsehtml(https:bj。lianjia。comershoufangpg1)ifnamemain:spiderstudy()spider。run()
违心的迎合,刻骨铭心的爱这一刻不会觉得有什么遗憾,也很坦然。这个世界上有好的东西,只不过偏偏自己没有遇上罢了。还没有自私到为自己的付出讨个公道。这种东西都是你情我愿的。多少次一时的兴高采烈……
李汶翰和王一博什么关系李汶翰和王一博同一个组合,队友关系。李汶翰和王一博其实当初同属于乐华旗下的一个组合,两人都是这个组合中的成员,两个人实际上就是队友。两人当初一起进入团队的时候年龄都不大,再加上……
欧文很高兴看到柯蒂斯琼斯回到边锋位置,这是他应得的直播吧11月2日讯欧冠小组赛A组收官战,利物浦主场20击败那不勒斯,小将柯蒂斯琼斯首发出任边锋,在72分钟被换下。赛后,欧文表示很高兴看到琼斯出现在红军的边锋位置上。欧文……
赵丽颖还是海润艺人吗赵丽颖已经不是海润的艺人了,赵丽颖2011年加入的北京海润演艺经纪有限公司,跟孙俪算是同门,不过已经离开了,目前是和颂传媒的合伙人。赵丽颖这几年的人气非常旺盛,在同期的女……
马瑟林32分步行者三分破纪录送篮网四连败步行者客场125116送给篮网4连败,全场步行者投进23记三分,创造队史纪录。步行者的迈尔斯特纳缺阵,开场杜兰特抢断杜阿尔特,西蒙斯反击空接打成21!哈利伯顿三分回应。罗……
老中医讲午睡十分钟,胜过吃补药午睡的这些好处你应该要了解你知道午睡对身体的好处吗?你午睡吗?午睡睡多长时间你了解过吗?午休其实是一个非常好的习惯,午时是指每天上午的十一点到下午一点的这段时间,相对我我们来说这段时间是吃饭并且要……
洛天依是谁本人照片洛天依本人照片洛天依是谁?洛天依是一个虚拟的可爱形象,从2012年出生到现在一直保持童颜。可谓是中国二次元界的小女神。洛天依本人照片同时,洛天依是一位身高15……
范冰冰替身是谁网曝范冰冰有3个替身,分别是:王亚楠,甘露,陈丹妮。其中王亚楠也被指最像范冰冰的女星。尤其是眼神、脸型和神韵,当小编看过王亚楠的照片后也认错了,确实和范冰冰非常的像,后边文中会……
跳过海选,空降决赛圈乾龙盛MC01这两年市面上出现的小尾巴是越来越多,甚至小尾巴这三个字都成了大家约定成俗的称呼,当你发现一个外号逐渐变成了代号,那说明这个东西已经足够被大家所熟知。有市场就有需求,于是乎……
三月流焱人要成长,必有原因人要成长,必有原因,背后的努力与积累一定数倍于普通人。Peoplewanttogrowup,theremustbeareason,behindtheeffortsanda……
约基奇31139仍无缘今日最佳!很抱歉,你遇到NBA历史第一今日NBA常规赛,掘金以11099力克湖人,此役两队打得很激烈,首节掘金领先4分,次节湖人占据上风,第三节掘金压着湖人打,末节湖人虽然凭借80的攻势缩小了分差,但掘金多点开花迅……
大衣下面搭配裙子还是裤子?主要是看这几点,气质又高级秋冬季节人手必备一件简约又极富质感的大衣,优雅利落的版型搭配上高级感十足的面料,时髦又百搭,优雅永不过时。在穿大衣的时候,下装的搭配也绝对不能忽视,选对搭配可以很好的提升搭配质……