You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
1.1 KiB
1.1 KiB
准备
1、爬取病和要相关的数据集
2、数据解析处理(存入MySQL-->导出为csv文件-->导入neo4j),建立病与药之间双向映射关系以及病和药各自的一些属性
3、spark环境搭建
步骤
1、拿到原始句子(用户从搜索框输入的问题)
2、对原句子进行抽象,将病名用nr替换并抽象句子(HanLP自定义分词,<相应病,自定义词性>以键值对形式存储),比如糖尿病要吃什么药 替换成 nr 要吃什么药
3、抽象句子匹配问题模板(一堆问题数据集合由Spark进行训练并计算,通过贝叶斯分类器将选择匹配到概率最大的问题模板),比如 nr 治疗方法
4、问题模板还原成最终的问题(从HanLP自定义分分词中具体化nr),比如 nr 治疗方法,替换其中的nr=糖尿病,最后效果就是糖尿病 治疗方法
5、拿到问题后,去图形数据库neo4j中查找问题的答案,比如 match(n:Disease) where n.name='糖尿病' return n.治疗方法
6.图数据库中查询结果返回到界面接收展示。