# 教学目标
- 掌握封装方法(函数、类、模块)在代码组织中的作用。

## 第一部分:基础实现(无结构化、无封装)

In [None]:
import os

files = os.listdir('data')
word_count = {}
for file in files:
 with open('data/' + file, 'r', encoding='utf-8') as f:
 text = f.read()
 words = text.split() # 假设简单按空格分词
 for word in words:
 if word in word_count:
 word_count[word] += 1
 else:
 word_count[word] = 1

# 排序并输出前10
sorted_words = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
for i in range(10):
 print(sorted_words[i])

### 问题分析

- 可读性差:没有清晰的功能划分,代码逻辑混杂,难以阅读理解维护。
- 扩展性差:如果需要更改分词逻辑、文件路径或输出格式,需修改多处代码。
- 容错性差:未处理文件读取失败、空文件等问题。
- 复用性低:逻辑无法直接复用在其他类似任务中。

## 第二部分:引入函数封装

提炼出若干函数,减少代码的复杂性,提高可读性和可维护性。

In [None]:
import os

def read_file(file_path):
 """读取单个文件内容"""
 try:
 with open(file_path, 'r', encoding='utf-8') as f:
 return f.read()
 except Exception as e:
 print(f"Error reading {file_path}: {e}")
 return ""

def get_words(text):
 """简单分词(按空格)"""
 return text.split()

def count_words(words):
 """统计词频"""
 word_count = {}
 for word in words:
 word_count[word] = word_count.get(word, 0) + 1
 return word_count

def get_top_n(word_count, n=10):
 """获取前 N 高频词"""
 return sorted(word_count.items(), key=lambda x: x[1], reverse=True)[:n]

def main():
 """主函数,控制流程"""
 word_count = {}
 data_dir = 'data'
 
 # 顺序结构:按步骤读取文件、处理文本
 for file in os.listdir(data_dir):
 file_path = os.path.join(data_dir, file)
 # 选择结构:检查文件是否为 txt
 if file_path.endswith('.txt'):
 text = read_file(file_path)
 # 循环结构:处理每个文件的词
 words = get_words(text)
 file_word_count = count_words(words)
 # 合并词频
 for word, count in file_word_count.items():
 word_count[word] = word_count.get(word, 0) + count
 
 # 输出结果
 top_words = get_top_n(word_count)
 for word, count in top_words:
 print(f"{word}: {count}")

if __name__ == '__main__':
 main()

### 改进分析
 - 逻辑分层:main() 函数清晰定义了程序执行步骤(读取文件 -> 分词 -> 统计 -> 输出)。
 - 模块化:将功能拆分为函数(read_file、get_words、count_words、get_top_n),提高代码复用性和可读性。
 - 错误处理:增加 try-except 处理文件读取异常。
 - 工程质量提升:
 - 可读性:函数命名本身就帮助理解代码,逻辑分块。
 - 可维护性:修改某部分功能(如分词逻辑)只需改对应函数。
 - 复用性:函数可复用在其他类似任务中。

## 第三部分:引入类封装

通过类封装功能,进一步提高代码的模块化、可扩展性和复用性。

In [None]:
import os
import jieba
from collections import Counter

class TextAnalyzer:
 """文本分析类,封装词频统计功能"""
 def __init__(self, data_dir='data', top_n=10):
 self.data_dir = data_dir
 self.top_n = top_n
 self.word_count = Counter()

 def read_file(self, file_path):
 """读取文件内容"""
 try:
 with open(file_path, 'r', encoding='utf-8') as f:
 return f.read()
 except Exception as e:
 print(f"Error reading {file_path}: {e}")
 return ""

 def tokenize(self, text):
 """使用 jieba 进行中文分词"""
 return jieba.lcut(text)

 def process_file(self, file_path):
 """处理单个文件"""
 if file_path.endswith('.txt'):
 text = self.read_file(file_path)
 words = self.tokenize(text)
 self.word_count.update(words)

 def process_directory(self):
 """处理目录下所有文件"""
 for file in os.listdir(self.data_dir):
 file_path = os.path.join(self.data_dir, file)
 self.process_file(file_path)

 def get_top_words(self):
 """获取前 N 高频词"""
 return self.word_count.most_common(self.top_n)

 def run(self):
 """执行词频统计"""
 self.process_directory()
 top_words = self.get_top_words()
 for word, count in top_words:
 print(f"{word}: {count}")

def main():
 analyzer = TextAnalyzer(data_dir='data', top_n=10)
 analyzer.run()

if __name__ == '__main__':
 main()

### 改进分析
- 面向对象封装:
 - 使用 TextAnalyzer 类将所有功能封装为一个对象,数据(如 word_count)和方法(如 tokenize)绑定在一起。
 - 通过 __init__ 提供配置(如 data_dir 和 top_n),提高灵活性。
 
- 模块化:类方法分工明确(如 read_file、tokenize、process_file),便于扩展。
- 工程质量提升:
 - 可扩展性:可通过继承 TextAnalyzer 添加新功能(如支持其他分词器或文件格式)。
 - 复用性:类可实例化多次,用于不同目录或参数。
 - 可维护性:逻辑集中在类中,修改相对安全。

# 第四部分:引入文件模块封装
将代码进一步模块化到不同文件,引入配置文件和停用词过滤。

In [None]:
# text_analyzer.py

import os
import jieba
from collections import Counter
import yaml

class TextAnalyzer:
 def __init__(self, config_path='config.yaml'):
 with open(config_path, 'r', encoding='utf-8') as f:
 config = yaml.safe_load(f)
 self.data_dir = config['data_dir']
 self.top_n = config['top_n']
 self.stop_words_file = config['stop_words_file']
 self.output_file = config['output_file']
 self.word_count = Counter()
 self.stop_words = self.load_stop_words()

 def load_stop_words(self):
 """加载停用词"""
 try:
 with open(self.stop_words_file, 'r', encoding='utf-8') as f:
 return set(line.strip() for line in f if line.strip())
 except Exception as e:
 print(f"Error loading stop words: {e}")
 return set()

 def read_file(self, file_path):
 """读取文件内容"""
 try:
 with open(file_path, 'r', encoding='utf-8') as f:
 return f.read()
 except Exception as e:
 print(f"Error reading {file_path}: {e}")
 return ""

 def tokenize(self, text):
 """中文分词并过滤停用词"""
 words = jieba.lcut(text)
 return [word for word in words if word not in self.stop_words]

 def process_file(self, file_path):
 """处理单个文件"""
 if file_path.endswith('.txt'):
 text = self.read_file(file_path)
 words = self.tokenize(text)
 self.word_count.update(words)

 def process_directory(self):
 """处理目录下所有文件"""
 for file in os.listdir(self.data_dir):
 file_path = os.path.join(self.data_dir, file)
 self.process_file(file_path)

 def get_top_words(self):
 """获取前 N 高频词"""
 return self.word_count.most_common(self.top_n)

 def save_results(self, top_words):
 """保存结果到文件"""
 with open(self.output_file, 'w', encoding='utf-8') as f:
 for word, count in top_words:
 f.write(f"{word}: {count}\n")

 def run(self):
 """执行词频统计并保存结果"""
 self.process_directory()
 top_words = self.get_top_words()
 self.save_results(top_words)
 for word, count in top_words:
 print(f"{word}: {count}")

In [None]:
# main.py

from text_analyzer import TextAnalyzer

def main():
 analyzer = TextAnalyzer()
 analyzer.run()

if __name__ == '__main__':
 main()

## 改进分析

- 模块化:将分析逻辑放入 text_analyzer.py,主程序 main.py 仅负责调用,符合工程化项目结构。
- 配置文件:通过 config.yaml 配置参数,增强灵活性,无需修改代码即可更改目录、输出文件等。
- 输出到文件:增加 save_results 方法,支持结果持久化。
- 工程质量提升:
 - 可维护性:配置文件和模块化分离了配置与逻辑,修改配置无需动代码。 
 - 复用性:模块可导入到其他项目,类可重复实例化。

### 封装的总节

封装方法:
- 模块化:函数划分逻辑,降低耦合。
- 函数封装:将重复逻辑封装为函数,提高复用性。
- 类封装:将数据和方法绑定,增强代码组织性和扩展性。
- 文件封装:通过文件模块化,符合工程化开发规范。

工程质量提升:
- 分离配置与逻辑,降低维护成本。
- 模块化和面向对象设计支持功能扩展。
- 错误处理提高程序鲁棒性。

# 第七部分:运行说明

环境准备:
- 安装 Python 3.8+。
- 安装依赖:pip install jieba pyyaml。
- 准备 data 目录,放入 100 个 txt 文件。
- 创建 stop_words.txt 和 config.yaml。

通过从无结构到结构化,再到面向对象和模块化的逐步优化,展示了结构化编程和封装方法如何显著提升代码工程质量。最终实现不仅满足了词频统计需求,还具备高可读性、可维护性、可扩展性和复用性,适合实际工程应用。