matching_dependency/hpo/er_model_hpo.py

import json
from ConfigSpace import Categorical, Configuration, ConfigurationSpace, Integer, Float
from ConfigSpace.conditions import InCondition
from ConfigSpace.read_and_write import json as csj
import py_entitymatching.catalog.catalog_manager as cm
import pandas as pd
from smac import HyperparameterOptimizationFacade, Scenario
from settings import *
from ml_er.ml_entity_resolver import er_process


class Classifier:
    @property
    def configspace(self) -> ConfigurationSpace:
        cs = ConfigurationSpace(seed=0)
        ml_matcher = Categorical("ml_matcher", ["dt", "svm", "rf", "lg", "ln", "nb"], default="rf")
        # todo 每个分类器的超参数
        tree_criterion = Categorical("dt_criterion", ["gini", "entropy", "log_loss"], default="gini")


        cs.add_hyperparameters([ml_matcher])
        return cs

    def train(self, config: Configuration, seed: int = 0) -> float:
        cm.del_catalog()
        indicators = er_process(config)
        return 1-indicators['performance']


def ml_er_hpo():
    classifier = Classifier()
    cs = classifier.configspace
    str_configspace = csj.write(cs)
    dict_configspace = json.loads(str_configspace)
    with open(hpo_output_dir + "configspace.json", "w") as f:
        json.dump(dict_configspace, f, indent=4)

    scenario = Scenario(
        cs,
        deterministic=True,
        n_trials=12,  # We want to run max 50 trials (combination of config and seed)
        n_workers=1
    )

    initial_design = HyperparameterOptimizationFacade.get_initial_design(scenario, n_configs=5)

    smac = HyperparameterOptimizationFacade(
        scenario,
        classifier.train,
        initial_design=initial_design,
        overwrite=True,  # If the run exists, we overwrite it; alternatively, we can continue from last state
    )

    incumbent = smac.optimize()
    incumbent_cost = smac.validate(incumbent)
    default = cs.get_default_configuration()
    default_cost = smac.validate(default)
    print(f"Default Cost: {default_cost}")
    print(f"Incumbent Cost: {incumbent_cost}")

    if incumbent_cost > default_cost:
        incumbent = default
        print(f"Updated Incumbent Cost: {default_cost}")

    print(f"Optimized Configuration:{incumbent.values()}")

    with open(hpo_output_dir + "incumbent.json", "w") as f:
        json.dump(dict(incumbent), f, indent=4)
    return incumbent


if __name__ == '__main__':
    ml_er_hpo()
1.所有相似度计算依靠GPU 2.迭代轮数自动识别 3.超参数优化结果落盘 1 year ago			`import json`
将相似度阈值、support阈值、confidence阈值交给smac调节封装ER函数 1 year ago			`from ConfigSpace import Categorical, Configuration, ConfigurationSpace, Integer, Float`
9.20 1 year ago			`from ConfigSpace.conditions import InCondition`
1.所有相似度计算依靠GPU 2.迭代轮数自动识别 3.超参数优化结果落盘 1 year ago			`from ConfigSpace.read_and_write import json as csj`
9.16 1 year ago			`import py_entitymatching.catalog.catalog_manager as cm`
			`import pandas as pd`
			`from smac import HyperparameterOptimizationFacade, Scenario`
将相似度阈值、support阈值、confidence阈值交给smac调节封装ER函数 1 year ago			`from settings import *`
11.14 1 year ago			`from ml_er.ml_entity_resolver import er_process`
9.20 1 year ago

			`class Classifier:`
9.16 1 year ago			`@property`
			`def configspace(self) -> ConfigurationSpace:`
			`cs = ConfigurationSpace(seed=0)`
9.19 1 year ago			`ml_matcher = Categorical("ml_matcher", ["dt", "svm", "rf", "lg", "ln", "nb"], default="rf")`
将blocking阶段单拎出来; 重写了MD挖掘代码(后续要改成随机生成加过滤) 11 months ago			`# todo 每个分类器的超参数`
			`tree_criterion = Categorical("dt_criterion", ["gini", "entropy", "log_loss"], default="gini")`

9.16 1 year ago
将blocking阶段单拎出来; 重写了MD挖掘代码(后续要改成随机生成加过滤) 11 months ago			`cs.add_hyperparameters([ml_matcher])`
9.16 1 year ago			`return cs`

9.20 1 year ago			`def train(self, config: Configuration, seed: int = 0) -> float:`
bug修复 1 year ago			`cm.del_catalog()`
将相似度阈值、support阈值、confidence阈值交给smac调节封装ER函数 1 year ago			`indicators = er_process(config)`
			`return 1-indicators['performance']`

9.16 1 year ago
9.24 1 year ago			`def ml_er_hpo():`
9.20 1 year ago			`classifier = Classifier()`
1.所有相似度计算依靠GPU 2.迭代轮数自动识别 3.超参数优化结果落盘 1 year ago			`cs = classifier.configspace`
			`str_configspace = csj.write(cs)`
			`dict_configspace = json.loads(str_configspace)`
			`with open(hpo_output_dir + "configspace.json", "w") as f:`
将相似度阈值、support阈值、confidence阈值交给smac调节封装ER函数 1 year ago			`json.dump(dict_configspace, f, indent=4)`
9.16 1 year ago
			`scenario = Scenario(`
1.所有相似度计算依靠GPU 2.迭代轮数自动识别 3.超参数优化结果落盘 1 year ago			`cs,`
9.24 1 year ago			`deterministic=True,`
固定MD挖掘的阈值，使用训练集挖掘MD 使用GPU穷举后采样挖掘法 1 year ago			`n_trials=12, # We want to run max 50 trials (combination of config and seed)`
新增脚本:根据MD生成正样本 1 year ago			`n_workers=1`
9.16 1 year ago			`)`

9.24 1 year ago			`initial_design = HyperparameterOptimizationFacade.get_initial_design(scenario, n_configs=5)`
9.16 1 year ago
			`smac = HyperparameterOptimizationFacade(`
			`scenario,`
			`classifier.train,`
			`initial_design=initial_design,`
			`overwrite=True, # If the run exists, we overwrite it; alternatively, we can continue from last state`
			`)`

			`incumbent = smac.optimize()`
11.2 1 year ago			`incumbent_cost = smac.validate(incumbent)`
			`default = cs.get_default_configuration()`
			`default_cost = smac.validate(default)`
			`print(f"Default Cost: {default_cost}")`
			`print(f"Incumbent Cost: {incumbent_cost}")`
9.16 1 year ago
11.2 1 year ago			`if incumbent_cost > default_cost:`
			`incumbent = default`
			`print(f"Updated Incumbent Cost: {default_cost}")`
9.16 1 year ago
11.2 1 year ago			`print(f"Optimized Configuration:{incumbent.values()}")`

将相似度阈值、support阈值、confidence阈值交给smac调节封装ER函数 1 year ago			`with open(hpo_output_dir + "incumbent.json", "w") as f:`
			`json.dump(dict(incumbent), f, indent=4)`
9.24 1 year ago			`return incumbent`
FUCK 1 year ago

			`if __name__ == '__main__':`
1.所有相似度计算依靠GPU 2.迭代轮数自动识别 3.超参数优化结果落盘 1 year ago			`ml_er_hpo()`