いきなりこのページに来た人はわけがわからないと思うので、先にこっち↓の記事を。
上の記事を書くために作った調査用ツールの仕様説明ページです。
こんな感じのツールです。
全国の歯科医院をデータベース化し、「ア歯科」という名前の医院を抽出する目的で作られたツールです。
このページの目次
元データは厚生局のものを使用
ツールで使用しているデータは、各地方の厚生局が配布している施設基準の一覧です。
これは保険制度上の設備や診療体制などの届け出のようで、全ての歯科医院が登録されているわけではなさそう。
届け出の必要ない設備や診療体制でできる治療を行っている医院(法的にあり得るパターンなのかが分からないです)は登録されていないだろうし、自費診療のみ行っている医院(これはあり得るはず…)も登録されていなさそう。
つまり、保険の施設基準の届け出を出していない「ア歯科」はこのツールでは検索できていません。
データの更新日時について
各厚生局の出しているデータの最終更新日時が微妙に違います。
確認した範囲では2019年末のものから、2020年2月の範囲(2020/2/5現在)。
なのでこの数ヶ月の間に新規開業または閉院した医院に関しては不正確なデータです。
もっと詳しそうなデータがあった
もうちょっと正確そうなデータを見つけたので、ア歯科検索ツール 2nd EDITIONにて採用予定。
データの抽出基準
地方によっては「医科」「歯科」「薬局」のデータが混在していたため、まずは「歯科」以外を除外しています。
次に、基本は「医療機関番号」という項目が一意であるものとして、重複データを除外しています。
(同じ医院が複数の施設基準を届け出ることがあるため)
ですが、医院名や所在地などから関連のなさそうに見える医院で「医療機関番号」の重複が多数見つかりました。
このため、暫定で「医療機関番号+医院名」を一意なものとして処理しています。
(都道府県をまたぐと医療機関番号の重複があり得るとか?)
なので、実はけっこういい加減です。
感覚的に9割~くらいは正しいと考えていいのでしょうか。 2020/2/5に読み込んだデータが68,480件になっていて、一般に言われる歯科医院総数とは近い数字になっています。
このあたりも2nd EDITIONで解決できればと考えています。
「ア歯科」の抽出基準
単純に「ア歯科」で検索すると「プレミア歯科「ファミリア歯科」のような「○○○ア歯科」にもマッチしてしまいます。
前方一致で「ア歯科」を検索すると「医療法人 ア歯科」のような名前にマッチしません。
「(半角/全角スペース)ア歯科」で検索すると「駅前ア歯科」のような名前にマッチしません。
なので、「(カタカナ1文字)ア歯科」の形になっているものを除外しています。
(正規表現で"[ァ-ヴー・]ア歯科"にマッチしたもの)
実は販売できるレベルのデータだった…?
データベース化にあたりGoogleで検索していると、医療機関のデータベースを販売しているところがありました。
お値段は、47都道府県の歯科だけで16万円!
マジか…。
オレも売れないかな…15万9,800円くらいで…。
いや、でも…。
売りません!
このサイトでの調査目的にのみ使用します。
いや、でも…。
実はツールのスクショは嘘だった
大元の記事でもこんな↓スクリーンショットを貼りました。
この画面を見ると、起動時にファイルを読み込んで、データベース化して、自由に検索が出来て、「ア歯科」の時は「○○○ア歯科」を除外できるオプションまでついているように見えます。
ガッ!!
実はこれらはほとんどダミーです。
記事を書く段階ではこのように↓、ワンボタンで全部処理してエクセルファイルに書き出すだけのシンプルなものでした。
後から見た目だけ整えて見栄を張る愚かなオレをお許しください。
仕様説明は以上です。
「ア歯科」記事へのお帰りはこちら↓から。
2nd EDITIONについて
ベースとなるデータを、同じく厚生局提供の「コード内容別医療機関一覧表」というデータに変更しました。
以前のデータに比べ、次のような点に優れています。
- 施設基準を届けていなくても登録されているっぽい
- 医院の開設者の名前が分かる
- 医院の管理者の名前が分かる
- 医院の開院日が分かる
- 診療科が分かる
元にしたデータについて
コード内容別医療機関一覧表には「医科」「歯科」「薬局」の3種類のデータがあります。
各地方の厚生局によっては、これに加えて「医科(歯科併設)」「歯科(医科併設)」のように細分化されています。
この5項目の中で「歯医者」と認識できるものは次の3つです。
- 歯科
- 歯科(医科併設)
- 医科(歯科併設)
この3つを合わせて「全国の歯医者さん全て!」としたかったのですが…
厚生局によっては「医科」と「医科(歯科併設)」が分離していません。
つまり、「医科」「医科(歯科併設)」が混在した中から「医科(歯科併設)」だけを抽出しないといけないわけです。
ここの判断は、「診療科名」に「歯科」としての診療科を含むかどうかで決めようと考えました。
ところが、「診療科名」の書式は規格化されていないようで、表記のバリエーションは余裕で1,000を越えていました。 ここから手作業で歯科と判断できるものを選び出すのはめんどくさいのもありますが、何より間違いが怖い。
以上のような理由から、コード内容別医療機関一覧表のうち、「歯科」「歯科(医科併設)」のみを「歯医者さんである」として登録しています。
要は「医科(歯科併設)」は漏れがある可能性が高いぞ、ということです。 見た感じ、それっぽいもの(総合病院の歯科口腔外科など)も登録されているので、全部拾えている可能性もあります。
医療機関番号の重複について
いかにも一意そうな項目である「医療機関番号」が、またもや重複多発。
今回は綺麗なデータを作りたかったので、重複チェックをかなり丁寧にかけました。
まず、医療機関番号の書式について。
えー、どう受け止めれば分からなかったのですが、7桁の数字を表すのに次の8種類のバリエーションがあります。
- 01-2345-6
- 01-23456
- 012 345.6
- 01,2345,6
- 01234567
- 01・2345・6
- 012,345,6
- 012,345.6
Wikipediaによると、2桁+4桁+1桁で表されるとのことなので、全部同じものなんでしょうきっと。 怪しいのもありますが。
スペースや記号を抜いた7桁を医療機関番号として処理することにしました。
で、この医療機関番号の重複チェックをかけると4,892件の重複が見つかりました。
うち、医院名から所在地から何から何まで一致しているものが31件。 これは同一の医院とみなしています。
名前だけ一致のものが2件。 所在地も全然違うので異なる医院とみなしています(苗字が同じなので親族?)。
残り4,859件は医院名を含むほとんどのデータが不一致なので、完全に異なる医院とみなしています。
以上のルールでユニークな歯科医院を定義すると、全国に68,595件の歯医者さんがありました。
1st EDITIONと比較すると、1stは重複チェックがかなりいい加減で、元にしたデータも違うことから、115件増えています。
診療科について
2nd EDITIONの一番の目的は診療科を調べて遊ぶことなので、これまた入念にチェックをかけました。
厚労省が認めている歯科の診療科は4つ。
- 歯科
- 小児歯科
- 矯正歯科
- 歯科口腔外科
これに加えて上記4つからの組み合わせも認められています。 実際に見つかったのは次の2つ。
- 小児矯正歯科
- 小児歯科口腔外科
「小児矯正歯科」は「子供を対象とした矯正歯科」だろうということで「矯正歯科」に分類。 同様に「小児歯科口腔外科」は「歯科口腔外科」に分類しています。
これらに該当しなかった診療科が4つ。
- 訪問歯科
- 歯科麻酔科
- 高齢者歯科
- 老年歯科
これらは登録医院が1院ずつしかなく、同時に「歯科」での登録が必ずあることから、全て「歯科」に分類しました。
診療科のない医院
4つの診療科のいずれも登録されていない医院が44院ありました。 うち1件は総合病院で「他」の表記があることから、ここに歯科口腔外科が含まれていそう。
それ以外の43件には全て医院名に「歯科」が含まれています。
どう扱おうか困ったのですが、可能性としては、
- コード内容別医療機関一覧表が保険診療の届け出で、自費診療のみ行う場合は登録しなくてもよい
- 登録の際に漏れがあっても実際の診療には何の影響もない
- 「歯科」だけを行っていて、歯科医院なら当然やるだろと省略されている
- 医院はあるが診療を行っていない
- その他の理由
を考えました。
1は違いそう。 友人の自費のみの医院がしっかりと登録されていました。
3なんじゃないかと思うのですが、正解によって対応が変わるので、ノータッチにしています。
この44院は「歯医者であるが診療科なし」扱いです。
2nd EDITIONにおける「ア歯科」の数
同様の正規表現で抽出しましたが、1stと同じく18医院でした。
18医院の内訳も同じ。
ただ、1件だけ、開設者と管理者の苗字に不一致があってですね、どっちを院長とすればいいのか…。 管理者かな?
2nd EDITIONの仕様説明は以上です。
「ア歯科」記事へのお帰りはこちら↓から。
楽しんで読んで欲しい