CodePattern/A 代码模式/15 工程化/2 松耦合/2 消息链/3 消息链.py

'''
后续组件挂载到前序组件后续链上
仅提供 self.next_observer 的抽象关系
后续组件接到指令和数据，自己决定动作

理论上每个组件可以参与到多个生产队列

本例使用了类来封装消息，相对于字符串理论上提供了更丰富的扩展可能
这是一个示例性质的原型，具体环境下需要调整
'''

from collections import Counter
from typing import List,  Dict
from cppy.cp_util import *

# 定义消息类型
class Message:
    def __init__(self, data):
        self.data = data

class TokenizedText(Message):
    pass

class FilteredText(Message):
    pass

class WordFrequency(Message):
    pass

# 定义观察者接口
class Observer:
    def notify(self, message: Message):
        pass

# 切词订阅者
class TokenizerSubscriber(Observer):
    def __init__(self, next_observer: Observer):
        self.next_observer = next_observer

    def notify(self, message: Message):
        if not isinstance(message.data, str):
            return
        tokenized_text = re_split(message.data)
        self.next_observer.notify(TokenizedText(tokenized_text))

# 停用词订阅者
class StopWordsRemoverSubscriber(Observer):
    def __init__(self, next_observer: Observer, stop_words: List[str]):
        self.next_observer = next_observer
        self.stop_words = set(stop_words)

    def notify(self, message: Message):
        if not isinstance(message, TokenizedText):
            return
        filtered_text = [word for word in message.data if word not in self.stop_words and len(word)>2 ]
        self.next_observer.notify(FilteredText(filtered_text))

# 词频统计订阅者
class WordFrequencyCalculatorSubscriber(Observer):
    def __init__(self, next_observer: Observer):
        self.next_observer = next_observer

    def notify(self, message: Message):
        if not isinstance(message, FilteredText):
            return
        word_freq = Counter(message.data)
        self.next_observer.notify( WordFrequency(word_freq) )


# 输出前N个词订阅者
class TopNWordsDisplaySubscriber(Observer):
    def __init__(self, n: int):
        self.n = n

    def notify(self, message: Message):
        if not isinstance(message, WordFrequency):
            return
        print_word_freqs( message.data.most_common(self.n) )


# 模拟发布者
def publish_text(text: str, observers: List[Observer]):
    for observer in observers:
        observer.notify(Message(text))

# 主函数
def main():
    text = read_file()

    stop_words = get_stopwords()

    # 创建订阅者链
    display_subscriber = TopNWordsDisplaySubscriber( n=10 )
    freq_subscriber = WordFrequencyCalculatorSubscriber(display_subscriber)
    stop_words_subscriber = StopWordsRemoverSubscriber(freq_subscriber, stop_words)
    tokenizer_subscriber = TokenizerSubscriber(stop_words_subscriber)

    # 发布文本
    publish_text(text, [tokenizer_subscriber])

if __name__ == "__main__":
    main()