paz2s9bc5/准备README.md

### 准备

1、爬取病和要相关的数据集

2、数据解析处理（存入MySQL-->导出为csv文件-->导入neo4j），建立病与药之间双向映射关系以及病和药各自的一些属性

3、spark环境搭建

### 步骤

1、拿到原始句子（用户从搜索框输入的问题）

2、对原句子进行抽象，将病名用nr替换并抽象句子（HanLP自定义分词，<相应病，自定义词性>以键值对形式存储），比如糖尿病要吃什么药 替换成 nr 要吃什么药

3、抽象句子匹配问题模板（一堆问题数据集合由Spark进行训练并计算，通过贝叶斯分类器将选择匹配到概率最大的问题模板），比如 nr 治疗方法

4、问题模板还原成最终的问题（从HanLP自定义分分词中具体化nr），比如 nr 治疗方法，替换其中的nr=糖尿病，最后效果就是糖尿病  治疗方法

5、拿到问题后，去图形数据库neo4j中查找问题的答案，比如   match(n:Disease) where n.name='糖尿病'  return n.治疗方法

6.图数据库中查询结果返回到界面接收展示。