如何找到合适的好医生?- 微医寻医榜实现方案

内容纲要

找好医生的困难

在日常生活中,如果一个人得了一些慢性病或者重大疾病,患者及家属首先想到的是盲目的通过各种渠道去打听有关这个疾病方面的医院、专家。而得到的结果也不一定准确,浪费人力物力,而且可能得到一些具有误导性的信息,例如魏则西的悲剧中,新闻有这样一篇报道:

据华西都市报报道,魏则西的父亲魏海全告诉记者,当初在北京的一家肿瘤专科医院里,他听了一位医师的推荐,在通过百度搜索和央视得知“武警北京总队第二医院”后,魏则西父母前往考察,并被该医院李姓医生告知可治疗,于是魏则西开始了在武警北京总队第二医院先后4次的治疗。从2015年9月份开始,魏则西在父母的带领下先后从陕西咸阳4次前往北京治疗。

目前医疗行业的一些排行榜单大都针对医院维度进行,对于患者来说实用性不强,如果能有一个专业的机构或者平台依靠专业知识、数据从一些科室、疾病角度对医生进行榜单排序,让广大的患者根据自身需求依据榜单,以最小的代价、最快的速度找到最合适且最专业的的医生,能给患者带来很大的福音,因此在这个背景下微医-寻医榜诞生了。

产品设计思路

"为患者提供可触达的权威医生,生病知道找谁,看病不用求人",是项目的初衷。
如何做到这一点?

  1. 明确目标用户
    file
    在案例中,刚刚被确认为大病、重病的患者或患者家属,由于消息来的突然、一时无法相信,同时接收到的信息量巨大,需要在不完全了解治疗方案、成效及风险的情况下作出决策,因此需要找更知名的医生、给出更权威的诊断以及下一步的治疗方案。因此寻医榜的一期排序选择了皮肤科对应的白癜风、湿疹、银屑病三个疾病在中国患者人群较多的慢性病作为入口,切实解决相关患者的诉求。
  2. 获取可靠的的医疗数据
    数据是算法的基础,通过互联网平台的数据收集,获得较为全面的医生数据。
  3. 排序结果的可信性
    医疗行业的特殊性,要想做好一个排序就需要大量的医疗专业机构的数据作为支撑,本次排序选用复旦榜、中国医师学会等相关数据作为支撑,提高榜单的公信力。

寻医榜数据支持

医生基础数据

目前中国的医院网络化程度偏低,且缺少对社会公开的全国性的医院、医生信息平台,因此为获得全面可靠的基础信息,榜单选用互联网医疗界领先的几个机构的数据作为榜单的基础数据来源,能覆盖全国绝大部分的医院、医生信息,作为医生池,能满足榜单基础数据的需求。

  1. 微医
    至2018年5月,微医连接了全国30个省市的2700多家重点医院、24万名医生,搭建起线上线下结合、全科专科融合的医疗资源供应体系,实名注册用户数超过1.6亿,累计服务人次超过5.8亿。

  2. 好大夫
    截至2018年12月,好大夫在线收录了全国9379家正规医院的58万名医生信息。其中,20万名医生在平台上实名注册、亲自使用,直接向患者提供各种线上医疗服务。在这些活跃医生中,三甲医院的医生比例占到78%,能够给予患者足够权威的诊疗建议、和合法的线上诊疗服务。

  3. 平安好医生、丁香医生、春雨医生等其他互联网医疗平台数据。

医疗专业数据

在医疗行业中,医院的专业水平需要权威的机构评测有很高的指导性。

  1. 复旦大学医学管理研究所医院排行榜
    复旦医院排行榜,是业界比较有影响力的榜单,针对医院维度进行评分,每年一期,分为:
    ‘专科声誉排行榜’、‘专科综合排行榜’、‘年度医院排行榜 (综合)’、‘地区医院专科声誉排行榜’。
    从科室医院的行业专业声誉水平、科研水平,对医院进行评定。
  2. 艾力彼榜单
    艾力彼医院管理研究中心,作为全国著名的第三方研究医疗评测机构,有很丰富的医院评测经验。
    艾力彼榜单分为:顶级医院100强、省会市属/计划单列市医院100强、非公立医院500强、县级医院500强等
  3. 中国医院科技影响力排行榜
    由中国医学科学院医学信息研究所从医院科技量值大小出发,发布的中国医院科技量值评价榜单,代表了医院的科研实力。
  4. 中华医学会
    中华医学会成立与1910年,是国内最早的医学学术性、公益性组织。组织成员大都是业界专家
  5. 胡润-平安好医生、好大夫榜单等数据
    民间机构根据医生的互联网因素医生的评价体系,侧重医生在互联网上的影响力,具有一定的参考价值

寻医榜排序方案

如何评价一个医生专业性,不同的榜单有不同的标准,寻医榜从患者的角度出发,选取16个三级维度对医生的专业性进行评价
包含医生的各项指标,关系到医生在专科、疾病的专业水准,考虑到中国医疗资源极不平衡,真正能满足患者通过榜单能快熟找到该领域最权威的医生进行及时沟通,因此医生的互联网服务数据也是重要的参考指标。

一级维度
医生专业影响力
医生互联网影响力
二级维度
医院影响力
科室影响力
医生影响力
在线服务数量
在线服务质量
患者关注度
全网影响力

数据预处理

由于医疗行业的特殊性,目前全国没有一个对外公开的数据汇集平台,因此前期在处理数据是数据质量较差,脏数据严重,通过制定统一标准,对各平台数据进行清洗,得到较可靠的数据。
获得的各维度数据,分为类别型特征和数值型特征,类别特征处理方式:人工划定等级得分。统计类数值型特征考虑到,微医数据与好大夫数据的统计口径可能不同,故对两者分别归一化处理,使所有的特征统一量纲,转换到[0-100]分数。使用Min-Max Normalization归一化计算

file

为得到最客观的评价体系,使用医生名+医院科室名+医院名作为确定一个唯一的医生的标签,针对不同平台的数据可靠性问题,选用按每项得分选择最大的一项为准。
原始数据示例:
file

选择合适的算法方案

使用线性回归模型对医生进行评分,模型根据样本数据得分分布特征,得到每个医生的预测得分,对比综合对比LinearRegression、Lasso、Ridge等算法模型在训练集和测试集上的的表现,选取R2值作为评判标准得到各算法的表现得分如下:
一期

R2_score LinearRegression Lasso Ridge
training_dataset 0.99196224 0.991883937 0.991962239
testing_dataset 0.991357468 0.991420641 0.991420641

在一期的基础上进行优化得到二期表现

R2_score LinearRegression Lasso Ridge
training_dataset 0.959795125295036 0.9596450479476223 0.9597951251147714
testing_dataset 0.929383008317121 0.9296590817588483 0.929384007981356

可以看到由于样本数据偏少,导致三个模型都存在一定程度的过拟合,为最大程度的降低过拟合风险,三者中训练集和测试集差值最小的模型最优,选取Lasso模型作为本次排序的输出模型。

算法实现结果

以科室维度,对该科室相关医生进行排序的结果
file
在团队小伙伴的努力下,寻医榜一期上线皮肤科全国榜和3个疾病榜后,得到了不错的反馈,小规模推广后日均UV上千,挂号、问诊订单量上百单,从数据来看,确实解决了部分患者的就医痛点。

微医-寻医榜链接
file

问题与展望

还存在的问题

本次使用的是线性回归模型,虽然可解释型比较强,但是特征工程中需要人为确定各种规则对各项指标进行评分,人为主观意识比较强,因此榜单还有很大的改进空间,总结几点原因:

  1. 样本数据偏少且分布不均
  2. 医生维度偏少在细节上无法有效区分医生个体

展望未来

  1. 鉴于医疗行业的特点,目前的样本数据的获得需要专家的标定,数据稀缺,后期随着产品的逐步完善,可添加考虑患者的评价作为来源,使榜单更具可靠实用性。
  2. 增加医生本身的评价维度,凸显医生个体差异
  3. 减少人为规则对数据影响,更加突出数据的价值

写在最后的话

在此感谢团队各位小伙伴们的几个月的努力,希望能通过这个产品能真正服务到患者,让患者真正的"就医不难、健康有道",产品迭代中会根据患者对产品的反馈数据能更进一步的改进算法模型,得到更令人信服的排序榜单服务大众。

发表评论

邮箱地址不会被公开。 必填项已用*标注