关于搜索引擎爬虫，说说个人的一些看法

来源：SEO优化　浏览：347次　时间：2022-06-26

我已经很久没怎么做搜索相关的事情了，本身也不是在大的搜索公司工作，所以目前也不靠搜索吃饭。这里写点搜索方面的技术分享，希望对有志从事搜索技术研发的读者朋友有帮助。

搜索引擎的分类方法很多，一般分为网页搜索和垂直搜索。谷歌、百度是搜索搜索，腾讯视频，QQ音乐是垂直搜索。

咱们这里不想聊怎么分类，而是想聊聊搜索引擎分为几个模块，各个模块的主要难点在哪里，哪些深入研究是有市场竞争力的，哪些工作是容易在各个公司找机会的。

这里我把搜索引擎主要模块划分为爬虫模块，网页处理，索引模块，检索模块，排序模块。考虑到文章篇幅，这篇文章先讲讲爬虫的部分，后续再一次展开其他部分。

爬虫
爬虫要解决几个问题：覆盖率，更新率，时效性。两个问题是有矛盾的，不更新的网页几秒钟去重新抓一次，不仅浪费带宽，而且在对方网站能够容许的抓取频率下，抓别的就受影响了。

几个工程挑战：怎么存储几百甚至千亿规模的网页？存储怎么去做压缩？怎么对这些数据集进行高校分析？比如分析哪些网页需要重新抓取，分析哪些网站死了，分析标题，分析正文，分析链接农场，计算PageRank等。工程挑战很多，这方面可以去阅读GFS, Bigtable, MapReduce 相关的论文。

还有一个工程挑战是，怎么去实时计算一个简化的pagerank ? 因为pagerank 正常是需要离线计算的，一次计算大概需要几天的时间。而判断一个网页是否重要，容不得等上几天的时间，否则搜索引擎的时效性就会比较差。

另外，怎么去挖掘和判断哪些网站是作弊网站，哪些网站的质量很差，哪些网页值得高频抓取，是否有Sitemap，如何利用RSS来抓取，怎么做到爬虫系统比较友好？这些都是爬虫工程师经常要思考的问题。

笔者之前参与开发过的爬虫系统，每天抓取的规模都在1-10亿之间。呆过的两三家公司，都接到大大小小站长的电话反馈或者投诉。这方面就是百度这样成熟的爬虫系统，也难免会被投诉。不过我做网页爬虫那会，基本还是PC搜索时代，百度的流量很值钱，百度的爬虫出了什么问题，一般的站长也不会为难你。但是如果是不太知名的搜索引擎公司，就比较麻烦了，随时封你IP，或者加你的spider Agent 到Robots 文件的Not Allow 列表里。

爬虫还有几个挑战，比如，网页搜索的时效性怎么搞？新一集电视剧出来了，能不能及时收录？能不能搞一个收录平台，让各家都主动接入？论坛有帖子更新了，能及时收录么？突然一条新闻火了，怎么在几秒钟内收录并且索引完毕？微博起来了，微博的内容怎么抓取？公众号火了，那能不能抓取公众号？

海外的网页怎么抓取？IP不够用怎么办？IP无法访问怎么办？代理是什么？怎么买代理？或者怎么自己挖掘代码IP？

另一个挑战是，一个网站之前没抓过，突然谈了个合作，或者突然允许抓取了，一个站点上亿的网页规模，要几天内全部抓取完毕，怎么办？火力全开，人家anti-spider 的策略很高级，怎么办？好不容易抓回来了，结果抓取的网页是有问题的，比如文字变成了图片，怎么办？有时候文字response code 是200，但是网页却空空如也，怎么办？

点击阅读全文

版权声明：
1、本文内容由网友自发贡献，版权归原作者所有。
2、本站仅提供文章发布平台，文章的内容与本站无关，请真伪自辩，本站不承担相应法律责任。
3、如发现本站有涉嫌抄袭侵权的内容，请举报并提供相关证据，一经查实，本站将立刻删除侵权内容。
4、转载请注明本文地址：http://www.z-ml.com/artinfo/335.html

上一篇：网站有搜索索引，但迟迟没有收录的原因
下一篇：网站如何吸引搜索引擎蜘蛛过来抓取网页是否蜘蛛越多越好呢

关于搜索引擎爬虫，说说个人的一些看法

文章分类

推荐站点

最新文章