kaggle中的护理相关数据(第一期)——欧盟的护士和护理专业人员EU Nursing and Caring Professionals
Kaggle是Google LLC的子公司,是一个由数据科学家和机器学习从业者组成的在线社区。Kaggle 允许用户查找和发布数据集,在基于 Web 的数据科学环境中探索和构建模型,与其他数据科学家和机器学习工程师合作,并参加竞赛以解决数据科学挑战。
Kaggle社区中存在不少和护理相关的数据集,这些数据集为我们提供了一个从数字视角探究护理行业基本情况、护理实践基本规律、护理技术发展前景的窗口。同时,这些数据也可以作为护理相关数据科学学习与训练的最佳实践材料,通过自己观察数据集内容、操作数据分析软件、编写数据分析程序,进而强化我们护理信息、护理工程相关学习者和从业者对数据的敏感性和基本技术能力。虽然目前国内在做这方面研究的人还很少,护理这个行业面临着这样那样的污名化,护理行业业者的整体素养也存在提升的空间,但是我还是希望以开设这一专栏方式,尽力传播护理信息化的成果、思想和理念。告诉所有怀疑我们的人,护理也可以很酷。
本期我们介绍的数据集是一份关于欧盟的护理及看护人员基本情况的数据集,这份数据集以csv文件的格式呈现。请容我赘述一下,csv文件是我们在数据科学的相关研究中十分常见的文件格式,它的中文名字叫逗号分隔符值(Comma-Separated Values,CSV),本质上就是一种纯文本文件,大家可以用windows系统上记事本或者Excel程序打开。本数据在Kaggle社区的链接为:https://www.kaggle.com/vgates/eu-nursing-and-caring-professionals,这个链接在国内可能打不开,请关注文末的公众号并回复kaggle001获取数据集。下面是这个数据集在Kaggle社区中的相关描述(原版介绍为英文,“#”符号为中文翻译及补充)。
EU Nursing and Caring Professionals, by country, year, occupation type, working status #欧盟的护士和护理专业人员,按国家、年份、职业类型、工作状态
Columns: #列;以下为对每列数据内容的解释,“:”前为列名,“:”后为每列的取值
TIME: year #时间:年份
GEO: country #GEO:国家
UNIT: "Number", "Inhabitants per .."., "Per hundred thousand inhabitants" #UNIT:“数量(位)”、“每 .. 居民/位”、“每十万居民/位”
WSTATUS: work status; Practising, Professionally Active, Licensed to Practice #WSTATUS:工作状态;实习, 活跃执业,有执业执照
ISCO08: International standard occupation code #ISCO08: 国际标准职业代码
Value: the numerical value in units of UNIT #Value: 单位为 UNIT的取值
Flag and Footnotes: see below #Flag (标志)和 Footnotes(页脚)的数值:见下(即下文"Available flags:"以下的相关内容)
totalnumberof_nurses: is a column I added; same as Value but with 0's for ":" in the value field, and without the thousands separator #数据上传者按:total number of_nurses: 是我加的一栏;与 Value 相同,但值字段中的 ":" 为 0,并且没有千位分隔符
Origin: #来源:
The Eurostat web site: #欧盟数据统计局的网站:
https://appsso.eurostat.ec.europa.eu/nui/show.do?dataset=hlth_rs_prsns&lang=en
"Available flags:" #“可用标志:”
"b","break in time series" #“b”,“时间序列中断”
"c","confidential" #“c”,“机密”
"d","definition differs, see metadata" #“d”,“定义不同,请参阅元数据”
"e","estimated" #“e”,“估计”
"f","forecast" #“f”,“预测”
"n","not significant" #“n” ,“不显着”
"p","provisional" #“p”,“临时”
"r","revised" #“r”,“修订”
"s","Eurostat estimate" #“s”,“欧盟统计局估计”
"u","low reliability" #“u”,“低可靠性”
"z","not applicable" #“z”,“不适用”
- 补充扩展:国际标准职业分类(ISCO)是国际劳工组织负责的主要国际分类之一。它属于国际经济和社会分类家族。ISCO 是一种工具,可根据工作中承担的任务和职责将工作组织成一组明确定义的组。更加详细的信息请见:https://www.ilo.org/public/english/bureau/stat/isco/index.htm
下面是该数据的PDF版本,方便大家进行初步浏览
请扫码关注下面的公众号获取下载链接。除了Kaggle社区上较老的版本外,还提供了欧盟数据统计局网站上下载的2020版本,且包括csv、html以及便于使用spss处理的sav格式。解压密码为enursing