北京同城必应科技有限公司8月招聘面试题94道2020821

Scrapy的工程名字不能使用"scrapy",否则爬虫会无法运行。除此以外工程名不受限制。()

此题为判断题(对，错)。

正确答案:错

在Scrapy工程的settings.py文件中,哪个配置项,如果设置为True,那么Scrapy就会自动跳过网站不允许爬取的内容()

A.ROBOTSTXT_OBEY

B.ROBOTSTXT_JUDGE

C.ROBOTSTXT

D.ROBOTSTXT_IF

正确答案:A

已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行()

此题为判断题(对，错)。

参考答案：错

使用scrapy－redisl构建分布式爬虫,需要在settings.py文件中设置()。

A、SCHEDULER=Scrapy-redisschedulerSchedule

B、SCHEDULER='SCRAPYschedulerScheduleCDUPEFILTER_

C、LASSscrap_redis.dupefilterRfpdupefilter

D、dupefilter-class=scrap.dupefilterRfpdupefilter'

参考答案：A

由于行为面试的题目要求考官提出的问题必须让被测试者能够用行为或措施的形式来回答,所以对面试题目要求较高。()

此题为判断题(对，错)。

正确答案：√

北京同城必应科技有限公司8月招聘面试题面试题面试官常问到的一些题目整理如下：问题 Q1：scrapy和scrapy-redis的区别？可用的回答： scrapy是一个爬虫通用框架，但不支持分布式，scrapy-redis是为了更方便的实现scrapy分布式爬虫，而提供了一些以redis为基础的组件为什么会选择redis数据库？因为redis支持主从同步，而且数据都是缓存在内存中，所以基于redis的分布式爬虫，对请求和数据的高频读取效率非常高什么是主从同步？在Redis中，用户可以通过执行SLAVEOF命令或者设置slaveof选项，让一个服务器去复制（replicate）另一个服务器，我们称呼被复制的服务器为主服务器（master），而对主服务器进行复制的服务器则被称为从服务器（slave），当客户端向从服务器发送SLAVEOF命令，要求从服务器复制主服务器时，从服务器首先需要执行同步操作，也即是，将从服务器的数据库状态更新至主服务器当前所处的数据库状态问题 Q2：如何在python中使用三元运算符？可用的回答：三元运算符是用于显示条件语句的运算符。这包含true或false值，并且必须为其评估语句。其基本语法为：三元运算符是用于显示条件语句的运算符。这包含true或false值，并且必须为其评估语句。其基本语法为：on_true if expression else on_false问题 Q3：遇到反爬机制怎么处理？可用的回答：反爬机制: headers方向判断User-Agent、判断Referer、判断Cookie。将浏览器的headers信息全部添加进去注意：Accept-Encoding；gzip,deflate需要注释掉问题 Q4：数据库的优化？可用的回答： 1. 优化索引、SQL 语句、分析慢查询； 2. 设计表的时候严格根据数据库的设计范式来设计数据库； 3. 使用缓存，把经常访问到的数据而且不需要经常变化的数据放在缓存中，能节约磁盘IO； 4. 优化硬件；采用SSD，使用磁盘队列技术(RAID0,RAID1,RDID5)等； 5. 采用MySQL 内部自带的表分区技术，把数据分层不同的文件，能够提高磁盘的读取效率； 6. 垂直分表；把一些不经常读的数据放在一张表里，节约磁盘I/O； 7. 主从分离读写；采用主从复制把数据库的读操作和写入操作分离开来； 8. 分库分表分机器（数据量特别大），主要的的原理就是数据路由； 9. 选择合适的表引擎，参数上的优化； 10. 进行架构级别的缓存，静态化和分布式； 11. 不采用全文索引； 12. 采用更快的存储方式，例如 NoSQL存储经常访问的数据问题 Q5： scrapy的优缺点？为什么要选择scrapy框架？可用的回答：优点：采取可读性更强的xpath代替正则强大的统计和log系统同时在不同的url上爬行支持shell方式，方便独立调试写middleware,方便写一些统一的过滤器通过管道的方式存入数据库缺点：基于python爬虫框架，扩展性比较差，基于twisted框架，运行中exception是不会干掉reactor，并且异步框架出错后是不会停掉其他任务的，数据出错后难以察觉问题 Q6：django 中当一个用户登录 A 应用服务器（进入登录状态），然后下次请求被 nginx 代理到 B 应用服务器会出现什么影响？可用的回答：如果用户在A应用服务器登陆的session数据没有共享到B应用服务器，那么之前的登录状态就没有了。问题 Q7：大数据的文件读取？可用的回答： 1. 利用生成器generator 2. 迭代器进行迭代遍历：for line in file 问题 Q8：什么是序列化和非序列化？可用的回答：Pickle模块接受任何Python对象并将其转换为字符串表示形式，并使用dump函数将其转储到文件中，此过程称为pickling。从存储的字符串表示中检索原始Python对象的过程称为unpickling问题 Q9：简述一下scrapy的基本流程？可用的回答： scrapy分为9个步骤： 1. Spiders需要初始的start_url或则函数stsrt_requests,会在内部生成Requests给Engine； 2. Engine将requests发送给Scheduler; 3. Engine从Scheduler那获取requests,交给Download下载； 4. 在交给Dowmload过程中会经过Downloader Middlewares(经过process_request函数)； 5. Dowmloader下载页面后生成一个response，这个response会传给Engine，这个过程中又经过了Downloader Middlerwares(经过process_request函数)，在传送中出错的话经过process_exception函数； 6. Engine将从Downloader那传送过来的response发送给Spiders处理，这个过程经过Spiders Middlerwares(经过process_spider_input函数)； 7. Spiders处理这个response，返回Requests或者Item两个类型，传给Engine，这个过程又经过Spiders Middlewares(经过porcess_spider_output函数)； 8. Engine接收返回的信息，如果使Item，将它传给Items Pipeline中；如果是Requests,将它传给Scheduler，继续爬虫； 9. 重复第三步，直至没有任何需要爬取的数据问题 Q10：简单谈下GIL？可用的回答： Python代码的执行由Python 虚拟机(也叫解释器主循环，CPython版本)来控制， Python 在设计之初就考虑到要在解释器的主循环中，同时只有一个线程在执行，即在任意时刻，只有一个线程在解释器中运行。对Python 虚拟机的访问由全局解释器锁（GIL）来控制，正是这个锁能保证同一时刻只有一个线程在运行。在多线程环境中，Python 虚拟机按以下方式执行： 1. 设置GIL 2. 切换到一个线程去运行 3. 运行： a. 指定数量的字节码指令，或者 b. 线程主动让出控制（可以调用time.sleep(0)）

scrapy框架是第三方库中的web框架。()

此题为判断题(对，错)。

参考答案：×

名称：华科新越科技

面试题目：1.你会不会div+css?

正确答案：

名称：新概念发展有限公司

面试题目：1.你对JAVA了解吗？

正确答案：

公司名称：深圳金华业系统软件有限公司

地点：深圳市南山区科技园数字技术园A3栋1楼A区楼联系人：谢小姐

面试形式：面试+笔试

面试题目：方面很广，主要框架跟自己简历上自己熟悉的

笔试题目：

1.forward()与sendRedirect（）的区别

正确答案：

什么叫做OTP片、掩膜片，两者的区别何在？（仕兰微面试题目）

正确答案：

北京同城必应科技有限公司8月招聘面试题94道2020821

更多 “北京同城必应科技有限公司8月招聘面试题94道2020821” 相关考题

相关内容

最新试卷

热门试卷