01

4 months ago · 129f1aaa3f
parent 617465cec6
commit 129f1aaa3f
3 changed files with 58 additions and 75 deletions
--- a/高性能模式.md
+++ b/高性能模式.md
@ -1,49 +1,41 @@
-
+从计算机系统结构的角度，提高 Python 任务执行速度的核心在于：减少解释器开销（编译/JIT）、提升并行性（多核/GPU）、优化内存访问（缓存友好）、降低 I/O 瓶颈以及适配硬件特性等。当前主要办法如下：
 从计算机系统结构的角度探讨提高 Python 代码任务执行速度的方法，涵盖硬件与软件交互的优化策略。以下是一些关键方法：
 ### 计算单元层面利用多核并行计算
-对于 CPU 密集型任务，使用多进程，每个进程拥有独立的 Python 解释器和内存空间运行在独立的内核上，实现并行计算。
+对于 CPU 密集型任务，使用多进程，每个进程拥有独立的 Python 解释器和内存空间运行在独立的内核上，实现并行计算。
 ### I/O 层面减少等待时间
- 异步编程：asyncio 库允许在单线程中处理多个 I/O 操作（实现并发执行），减少等待时间 .
+- 异步编程：针对I/O请求等待，手工实现任务切换，完成并发执行.
- 多线程：Python的线程切换是由解释器完成，而不是操作系统。切换不仅基于时间间隔.
+- 多线程：解释器自动完成I/O请求的线程切换 。
- 批量处理，减少I/O请求数量
+- 批量处理，减少I/O请求数量 。
 ### 编译层面减少解释器开销
- 使用 JIT 编译器：Just-In-Time（JIT）编译可以在运行时将Python代码编译成机器码，从而提升执行速度 。PyPy 是一种替代 CPython 的 Python 实现，使用即时编译（JIT）技术，PyPy 的 JIT 引擎可以分析代码执行路径，优化频繁调用的函数，充分利用处理器架构。
+- 使用 JIT 编译器：Just-In-Time（JIT）编译可以在运行时将Python代码编译成机器码，从而提升执行速度 。PyPy 是一种替代 CPython 的实现，使用 JIT 技术，PyPy 的 JIT 引擎可以分析代码执行路径，优化频繁调用的函数，充分利用处理器架构。
- **Cython 编译**：Cython 允许开发者为 Python 代码添加 C 类型的注解，并编译为 C 代码，再由 C 编译器生成机器码。Cython 可实现接近 C 的执行速度，特别适合静态类型优化的场景。
+- **Cython 编译**：Cython 允许开发者为 Python 代码添加 C 类型的注解，并编译为 C 代码，再由 C 编译器生成机器码。Cython 特别适合静态类型优化的场景。
-### 利用Python的语言特性
+### 利用Python的解释器特性
 -  **使用内置数据类型和函数**：内置的数据类型（如列表、字典、集合等）和函数通常经过高度优化。
 -  **选择合适的数据结构**：例如，一些类型执行一些操作更快，一些类型更省空间
 -  **减少全局变量的使用**：访问全局变量通常比局部变量慢，因为它们需要在更大的作用域中查找。
-  减少函数调用可降低堆栈操作开销
+-  **减少函数调用**，可降低堆栈操作开销。
 -  **选择合适的数据结构**：例如，如果需要快速查找元素，则应该优先考虑使用字典或集合而非列表
 -  使用列表推导式替代循环追加，避免频繁创建和销毁临时对象的开销。
 -  使用生成器而不是列表来处理大数据集，以减少内存占用。
 -  使用XX池或预分配资源。
 ### 使用第三方高性能库
-  NumPy、Pandas这些库通常用 C/C++ 编写并经过优化。
+-  NumPy、Pandas这些库用 C/C++ 编写并经过优化。
-  NumPy  模块使用连续内存块存储数据，向量化操作来代替显式的Python循环更高效 。
+-  NumPy 使用连续内存块存储数据，向量化操作来代替显式的Python循环更高效 。
-  SIMD 指令加速， NumPy、Numba、Pandas/SciPy 都使用了SIMD。Cython 可以直接用 C 代码使用SIMD 。
+-  SIMD 指令加速，NumPy、Numba、Pandas/SciPy 都使用了SIMD。Cython 可以直接用 C 代码使用SIMD 。
 - `gzip` 模块可压缩数据，减少网络传输的数据量，提高网络传输速度。
- `mmap` 模块进行内存映射文件，处理超大文件、优化I/O性能以及实现高效的进程间通信方面具有显著优势。
+- `mmap` 模块进行内存映射文件，处理超大文件、优化I/O性能以及进程间通信方面具有显著优势。
 - `functools.lru_cache` 缓存计算结果，避免重复计算  。
-#### 讨论
+## 总结
-
+具体实施时，应根据任务类型（CPU 密集型、I/O 密集型或混合型）选择合适的优化策略，并结合性能分析工具（如 cProfile 、timeit或 line_profiler）定位瓶颈。
-从计算机系统结构的角度，提高 Python 代码速度的核心在于：减少解释器开销（编译/JIT）、提升并行性（多核/GPU）、优化内存访问（缓存友好）、降低 I/O 瓶颈以及适配硬件特性。具体实施时，应根据任务类型（CPU 密集型、I/O 密集型或混合型）选择合适的优化策略，并结合性能分析工具（如 cProfile 、timeit或 line_profiler）定位瓶颈。
+计算设备方面的简单提升办法：使用多机、更快的 CPU、更多核的CPU、更多的内存、更快的存储、使用 GPU/FPGA/TPU 。
 计算设备方面提升办法：使用多机、更快的 CPU、更多核的CPU、更多的内存、更快的存储、使用 GPU 、 FPGA 、TPU加速 。
 此外，随着Python社区的发展，新的技术和工具不断涌现，开发者应持续关注最新的进展，以便更好地优化自己的代 。
--- a/操作系统相关知识.md
+++ b/操作系统相关知识.md
@ -4,45 +4,34 @@
 栈：系统自动分配释放，函数参数值，局部变量，返回地址等在此
 堆：存放动态分配的数据，由开发人员自行管理
-进程表会记录进程在内存的位置，PID 是多少，以及当前什么状态，内存给它分配了多大使用空间以及属于哪个用户
+不同操作系统进程和线程实现机制有不同。
 每个用户态线程通过系统调用创建一个绑定的内核线程，Windows NT 即采用这种模型 ；
 n 个用户态线程对应 m 个内核态线程。m 通常设置为核数，Linux 即采用的这种模型 
 在 Linux 中，操作系统采用虚拟内存管理技术，使得进程都拥有独立的虚拟内存空间，理由也比较直接，物理内存不够用且不安全(用户不能直接访问物理内存)。Linux 内核看来只有进程而没有线程。Linux所谓的线程其实是与其他进程共享资源的轻量级进程。为什么说是轻量级呢？在于它只有一个执行上下文和调度程序所需的信息，与父进程共享进程地址空间 。 
 虚拟内存技术，把进程虚拟地址空间划分成用户空间和内核空间。
-在 32 位的操作系统中，4GB 的进程地址空间分为，用户空间和内核空间，用户空间为 0～3G，内核地址空间占据 3～4G，
+在 32 位的操作系统中，4GB 的进程地址中用户空间为 0～3G，内核地址空间为 3～4G，
-用户不能直接操作内核空间虚拟地址，只有通过系统调用的方式访问内核空间。
+用户不能直接操作内核地址，只有通过系统调用的方式访问。
 线程共享虚拟内存和全局变量等资源，线程拥有自己的私有数据比如栈和寄存器。
-## 并发/并行
+## 多任务
-多任务简单地说，就是操作系统可以同时运行多个任务。分为并行和并发两种。
+多任务就是操作系统可以同时运行多个任务。分为并行和并发两种。
 并行是真在不同CPU核上同时执行，并发是轮换在一个核上执行。
 【顺序】 你做作业，然后看综艺，
 【并发】 你写程序到一半，综艺开始，看完综艺后继续写程序。两件事情都处于启动状态
 【并行】 你写程序到一半，综艺开始，你一边做作业一边写程序。两件事情同时做
 ## 阻塞/非阻塞
 等候消息的过程中能不能干其他事
 ## 同步/异步
 指的是消息通知的机制
 主动听消息则为同步(一直等,轮流取)、被动听消息则为异步
 异步过程调用发出后，可以继续执行其它操作
 通知调用者的三种方式，如下
-状态：即监听被调用者的状态（轮询），调用者没隔一段时间检查一次，效率会很低。
+状态：即监听被调用者的状态，调用者每隔一段时间检查一次是否完成（轮询）。
-通知：当被调用者执行完成后，发出通知告知调用者，无需消耗太多性能。
+通知：当被调用者执行完成后，发出通知告知调用者。
-回调：与通知类似，当被调用者执行完成后，会调用调用者提供的回调函数。
+回调：当被调用者执行完成后，调用调用者提供的回调函数 。
-## 进程、线程、协程
+## 进程、线程
 一个游戏，启动后为一个进程
 运行一个软件就是开了一个进程 
 比如，一个游戏启动后为一个进程
 但一个游戏需要图形渲染，联网操作能同时运行
 所以将其各个部分设计为线程
 即一个进程有多个线程
@ -53,34 +42,17 @@ n 个用户态线程对应 m 个内核态线程。m 通常设置为核数，Linu
 一个进程无法访问另一个进程的空间
 一个进程运行的失败也不会影响其他进程的运行
 因为操作系统可以切换进程，所以看起来同时运行的进程数会超过核数
 当需要创建的子进程数量巨大时，可以创建进程池
 进程间常通过消息队列程序实现数据传递
 一个进程内可以包含多个线程
-线程是程序执行的基本单位，是进程中的实际运作单位
+线程是程序执行的基本单位
 线程是操作系统分配处理器时间的基本单元
 线程之间没有单独的地址空间，一个线程死掉就等于整个进程死掉
 协程运行在线程之上
 协程的调度完全由用户控制，协程拥有自己的寄存器上下文和栈
-通常我们所说的电脑配置几核就是最大可以运行的进程，
+一个进程下的多个线程可以共享该进程的资源，包括内存。
-因为电脑会切换进程，所以看起来电脑会同时运行的进程数会超过核数
+多个线程同时对同一个全局变量操作，会出现竞争问题，从而数据结果会不正确
-当需要创建的子进程数量巨大时，就可以创建进程池
+同步控制。某个线程要更改数据时，先将其锁定，直到将状态变成“非锁定”，其他的线程才能锁该资源。
 进程是常通过Queue实现数据传递，Queue是一个消息队列程序
 线程是进程的一部分，一个进程下的多个线程可以共享该进程的所有资源
 多个线程共享内存（数据和全局变量共享）。
 如果多个线程同时对同一个全局变量操作，会出现资源竞争问题，从而数据结果会不正确
 需要进行同步控制。某个线程要更改共享数据时，先将其锁定，此时资源的状态为“锁定”，其他线程不能更改；直到该线程释放资源，将资源的状态变成“非锁定”，其他的线程才能再次锁定该资源。
 如果两个线程分别占有一部分资源并且同时等待对方的资源，就会造成死锁。
-可以添加超时时间等，解决死锁
+可以用一些机制解决死锁，比如超时。
 协程是在一个线程中
 协程是异步编程的一种具体实现。异步编程是一种编程范式，旨在提高程序的并发能力。
 协程是一种允许在特定位置暂停或恢复的子程序。协程提供了一种轻量级的并发方式，允许多个任务在单线程内交错执行，非常适合 I/O 密集型场景。
 和回调等其他异步技术相比，
 协程维持了正常的代码流程，在保证代码可读性的同时最大化地利用了 阻塞 IO 的空闲时间。
 协程在Python中有三种实现方式：
 - 生成器中使用 yield/send 
 - 第三方库 gevent
 - Python 3.5 以后的标准库中的 async/await
 异步编程在当前 python 社区，常常等价于协程，甚至等价于 async
--- a/高性能模式/04
+++ b/高性能模式/04
@ -14,7 +14,26 @@ JIT 的工作原理：**解释执行**：程序开始时，代码以解释方式
 - **Taichi**：专注于高性能计算，适合图形学、物理仿真等领域。
 ### 异步编程生态系统中的几个概念
 异步编程：异步编程是一种编程范式，允许任务并发执行。
 在 Python 中，异步编程可以通过协程、回调、事件循环等多种方式实现。
 协程：协程是异步编程的一种实现方式，协程是一种在执行过程中可以暂停和恢复的函数。
 协程运行在线程之上，协程的调度完全由用户控制 。
 同回调等其他异步技术相比，协程维持了正常的代码流程，提高了代码可读性。
 Async：Async 是 Python 3.5 引入的一个关键字，用于定义异步函数（即协程）。async def 定义的函数可以暂停执行，使用 await 等待其他操作完成，它们构成了 Python 的异步编程语法。
 asyncio：asyncio 是 Python 标准库中管理协程的框架。 
 Python 的异步编程经历了从生成器（yield/send）协程到原生协程的演变。
 原生协程最初使用 @asyncio.coroutine 和 yield from ，
 自 Python 3.5 起，async/await 成为标准 。
 第三方库 gevent 也有不短的历史 。
 ### 碎片
 - 网络系统常用架构 ：服务端用线程池，客户端用 asynico - 异步
- 分布式方法：celery ，不用自己造车 （ lzuDataFactory ）！！！
+- 分布式任务队列系统：celery ，不用自己造车 （ lzuDataFactory ）
- thread模块是比较底层的模块,threading模块对thread做了一些包装
+- thread 模块是比较底层的模块, threading 模块对 thread 做了一些包装