You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

83 lines
4.6 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# FineTune
一、项目内容
利用提供的已标注的数据集,使用 PaddleHub 的 FineTune 功能载入预训练模型组建Finetune Task对图片进行训练最终实现图片分类。
二、项目方法和步骤
步骤一安装并导入安装paddlehub库
!pip install paddlehub==1.8.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
import paddlehub as hub
步骤二:选择并加载预训练模型
进入飞桨官网https://www.paddlepaddle.org.cn/hublist查看PaddleHub支持的所有预训练模型这里选择mobilenet_v2_imagenet作为预训练模型。
module = hub.Module(name="mobilenet_v2_imagenet")
步骤三:读取数据集中的数据
!unzip -o /data/shixunfiles/26a2e3c3b2c50fe54e2fcab6e031a141_1607408726958.zip
步骤四:加载自定义数据集
继承基类BaseNLPDatast修改数据集存放地址以及类别
from paddlehub.dataset.base_cv_dataset import BaseCVDataset
class DemoDataset(BaseCVDataset):
def __init__(self):
self.dataset_dir = "car_datasets"
super(DemoDataset, self).__init__(
base_path=self.dataset_dir,
train_list_file="train_list.txt",
validate_list_file="validate_list.txt",
test_list_file="test_list.txt",
label_list_file="label_list.txt",
)
dataset = DemoDataset()
步骤五生成一个图像分类的reader
生成一个图像分类的 readerreader 负责将 dataset 的数据进行预处理,接着以特定格式组织并输入给模型进行训练。
data_reader = hub.reader.ImageClassificationReader(
image_width=module.get_expected_image_width(),
image_height=module.get_expected_image_height(),
images_mean=module.get_pretrained_images_mean(),
images_std=module.get_pretrained_images_std(),
dataset=dataset)
步骤六:选择运行配置
使用CPU进行训练;Finetune的任务遍历10次训练集;每次训练的时候给模型输入的每批数据大小为32;每隔50 step在验证集上进行一次性能评估;使用DefaultFinetuneStrategy策略进行finetune。
config = hub.RunConfig(
use_cuda=False,
num_epoch=10,
batch_size=32,
eval_interval=50,
strategy=hub.finetune.strategy.DefaultFinetuneStrategy())
步骤七:组建Finetune Task
获取module的上下文环境从输出变量中找到特征图提取层feature_map在feature_map后面接入一个全连接层生成Task。
input_dict, output_dict, program = module.context(trainable=True)
img = input_dict["image"]
feature_map = output_dict["feature_map"]
feed_list = [img.name]
task = hub.ImageClassifierTask(
data_reader=data_reader,
feed_list=feed_list,
feature=feature_map,
num_classes=dataset.num_labels,
config=config)
步骤八开始Finetune
选择finetune_and_eval接口来进行模型训练这个接口在finetune的过程中会周期性的进行模型效果的评估。
run_states = task.finetune_and_eval()
步骤九:模型预测
首先从数据集中拿出测试集数据,然后进行预测,并计算预测正确率
label_map = dataset.label_dict()
index = 0
true=0
run_states = task.predict(data=data)
results = [run_state.run_results for run_state in run_states]
for batch_result in results:
batch_result = np.argmax(batch_result, axis=2)[0]
for result in batch_result:
index += 1
result = label_map[result]
actual=os.path.dirname(data[index - 1])
actual=actual.split('/')
if actual[-1]==result:
true+=1
print("input %i is %s, and the predict result is ( %s )" %
(index, data[index - 1], result))
print( '预测正确率为{:.2%}'.format(true/index))
三、实训结果和分析
模型预测的正确率达到了100%,说明了我们的模型在车辆预测这一任务上具有很高的准确性和可靠性。
模型准确率高的原因可能是数据集质量较高,有助于模型在学习过程中捕捉到关键特征。并且微调策略选择比较适当。
四、讨论与心得
在这次实训中我们了解到了机器学习和深度学习的概念并且基于迁移学习这种思想通过案例分析学会了使用PaddleHub 的 FineTune功能进行图像分类。
在学习的过程中,我们深刻地体会到了预训练模型的强大和微调策略的重要性。预训练模型可以减少训练时间,提高训练的效率和模型的性能。合适的微调策略可以帮助模型快速收敛,同时避免过拟合现象。
在今后的学习中我们也会持续关注深度学习这一领域关注finetune技术的发展不断提升自己的技能水平寻求这一技术在化学专业中的运用做到学科交叉融合。