大修 10

2 years ago · cd8186dd68
parent 50952795a8
commit cd8186dd68
13 changed files with 53 additions and 3 deletions
--- a/多计算单元/数据共享/1
+++ b/多计算单元/数据共享/1
@ -44,3 +44,12 @@ def main():

 if __name__ == '__main__':
    main()
+
+'''
+在多线程之间传递数据，建议使用线程安全的队列，如queue.Queue或multiprocessing.Queue（后者也适用于多进程环境）。
+这些队列提供了线程安全的数据传输机制，可以避免竞态条件和数据损坏。
+全局变量不可预测
+
+multiprocessing.Queue在Python中的底层实现并不直接依赖于文件系统。它利用了操作系统提供的进程间通信（IPC, Inter-Process Communication）机制，具体实现取决于不同操作系统的支持。
+在Unix/Linux系统中，multiprocessing.Queue通常基于管道（pipes）、共享内存和/或消息队列等机制实现。而在Windows系统上，可能使用命名管道（named pipes）或者内存映射文件（memory-mapped files），以及某些版本的Windows特有的进程间同步对象如Mutexes、Semaphores和事件。
+'''    
--- a/多计算单元/数据共享/2
+++ b/多计算单元/数据共享/2
@ -0,0 +1,43 @@
+'''
+使用 multiprocessing.Manager:
+Manager 提供了一个可以在不同进程之间共享和修改的数据类型，如 list, dict, Namespace 等。
+它实际上是在背后启动了一个单独的服务器进程，其他进程通过代理来访问这些共享对象。
+'''
+# 使用 multiprocessing.Manager 来完成统计词频
+# 用消费者模式更好
+
+from cppy.cp_util import *
+from collections import Counter
+from multiprocessing import Manager, Process
+
+stop_words = get_stopwords()
+
+def count_words(chunk,word_count):    
+    words = [ w for w in chunk if ( not w in stop_words ) and len(w) >= 3 ]
+    for word in words:
+        word_count[word] = word_count.get(word, 0) + 1
+    # word_count.update( Counter(words) ) # 类型不起作用
+
+@timing_decorator
+def main():   
+    manager = Manager()
+    word_count = manager.dict()
+
+    chunks = get_chunks(testfilepath)
+    processes = []
+    for chunk in chunks:
+        p = Process(target=count_words, args=(chunk,word_count))
+        processes.append(p)
+        p.start()
+
+    for p in processes:  p.join()
+
+    sorted_word_count = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
+    top_10_words = sorted_word_count[:10]
+
+    print("频率最高的10个词:")
+    for word, count in top_10_words:
+        print(f"{word}: {count}")
+
+if __name__ == '__main__':
+    main()
--- a/多计算单元/数据分包/mapreduce.py
+++ b/多计算单元/数据分包/mapreduce.py
--- a/多计算单元/数据分包/多线程.py
+++ b/多计算单元/数据分包/多线程.py
--- a/多计算单元/数据分包/多进程.py
+++ b/多计算单元/数据分包/多进程.py
--- a/多计算单元/数据分包/抽象并发.py
+++ b/多计算单元/数据分包/抽象并发.py
--- a/计算设备/数据共享/1
+++ b/计算设备/数据共享/1
@ -1,2 +0,0 @@
-
-# 文件或者共享变量
--- a/计算设备/数据共享/4
+++ b/计算设备/数据共享/4
--- a/其它/数据库/ORM/DataQuery.py
+++ b/其它/数据库/ORM/DataQuery.py
--- a/其它/数据库/ORM/createDb.py
+++ b/其它/数据库/ORM/createDb.py
--- a/其它/数据库/ORM/processData.py
+++ b/其它/数据库/ORM/processData.py
--- a/计算设备/数据共享/2
+++ b/计算设备/数据共享/2
--- a/其它/数据库/数据库.py
+++ b/其它/数据库/数据库.py