站长资源脚本专栏
python多线程和多进程关系详解
关于多线程的大概讲解:
在Python的标准库中给出了2个模块:_thread和threading,_thread是低级模块不支持守护线程,当主线程退出了时,全部子线程都会被强制退出了。而threading是高级模块,用作对_thread进行了封装支持守护线程。在大部分状况下人们只需要采用threading这个高级模块即可。
关于多进程的大概讲解:
多进程是multiprocessing模块给出远程与本地的并发,在一个multiprocessing库的采用场景下,全部的子进程全是由一个父进程运行来的,这个父进程变成madter进程,它会管理一系列的对象状态下,如果一旦这个进程退出了,子进程很可能处在一个不稳定的状态下,那么这个父进程尽量要少做事来维持其稳定性
所以python多线程和多进程的区别如下:
多线程中,全部子线程的进程号一样;多进程中,不一样的子进程进程号不一样
线程共享内存空间;进程的内存是独立的
多线程可以共享全局变量,多进程做不到
同一个进程的线程之间可以直接交流;2个进程想通信,必须通过一个中间代理来实现
一个线程可以控制和操作同一进程里的其他线程;但是进程只能操作子进程
创建新线程很简单;创建新进程需要对其父进程进行一次克隆
内容扩展:
python多进程、多线程之联系与区别
进程
概念:进程是操作系统分配资源的最小单元
理解:一个应用程序至少包括1个进程,每个进程在执行过程中拥有独立的内存单元,python的多进程编程主要依靠multiprocess模块。
进程间通信:首先,进程间是可以相互通信的,比较常见的有七种通信方式,如管道pipe、命名管道FIFO、消息队列MessageQueue、共享内存SharedMemory、信号量Semaphore、套接字Socket、信号 signal(由于实际开发涉及较少,这里只作简单介绍)但是通常进程之间是相互独立的,每个进程都有独立的内存。通过共享内存(nmap模块),进程之间可以共享对象,使多个进程可以访问同一个变量(地址相同,变量名可能不同)。多进程共享资源必然会导致进程间相互竞争,所以应该尽最大可能防止使用共享状态。
线程
概念:线程是操作系统调度的最小单元
理解:1个进程包括1个或多个线程,相比较之下,线程占用资源更少,更高效,且一个进程的多个线程在执行过程中共享内存,毫无疑问,线程之间可以相互通信。而python的多进程编程主要依靠threading模块
线程间通信:主要有两种方式,一种是上锁,上互斥锁确保任意时刻只有一个线程具备修改全局变量的能力。另一种则是使用消息队列,比较经典的生产者、消费者模型就是这样,一个负责生成,一个负责消费,所生成的产品存放在queue里,实现了不同线程间沟通。
多进程跟多线程的区别
由于进程的创建跟销毁都涉及到系统资源的分配以及回收,导致多进程的开销明显大于多线程的开销。
两者的应用场景
对CPU密集型代码(比如循环计算) - 多进程效率更高
对IO密集型代码(比如文件操作,网络爬虫) - 多线程效率更高
理由:对于IO密集型操作,大部分消耗时间其实是等待时间,在等待时间中CPU是不需要工作的,那你在此期间提供双CPU资源也是利用不上的,相反对于CPU密集型代码,2个CPU干活肯定比一个CPU快很多。那么为什么多线程会对IO密集型代码有用呢?这时因为python碰到等待会释放GIL供新的线程使用,实现了线程间的切换。