機械学習を通じたデータ収集技術と、
ビッグデータ前処理技術を駆使し、オープンデータを磨き上げる

SCUEL データベースは、厚生労働省・都道府県自治体など公的機関が公開するオープンデータを中心に構成されています。オープンデータは表記揺れや間違いも多く、そのまま企業の業務システムに取り込むことはとてもできません。そのため、クレンジング・コード付与・検証プロセスを経て提供しています。1 つの情報ソースではカバレッジを高めることができないため、不足する情報については医療機関ホームページなどの情報を活用してデータを補完したり、データ利用先の企業や、該当医療機関からの修正依頼を通じて、日々データのメンテナンスを行っています。
このようにSCUEL のデータベースは「データの収集・管理をテクノロジーを活用して高度に自動化・効率化している点」にあります。
SCUEL データベースが、日本一の属性数を保有しながらも、高い鮮度で運営できるのはビッグデータ処理技術を強みとしたデータ・テクノロジーカンパニーだからこそ実現できる仕組みです。

オープンデータからSCUEL データベースに磨き上げる仕組み

データ収集

オープンデータをプログラムで収集します。都道府県別・自治体別・データ区分別にフォーマットが異なるため、医療機関や薬局で百パターン、介護は市区町村別・介護サービス種類別別れているためフォーマットパターンは1,000パターンを超えます。人的に収集すると月間での更新が不可能なため、SCUELでは収集プログラムを独自開発し、自動更新する仕組みを開発しています。しかし、公開フォーマットは毎月、市区町村や都道府県により変更が発生しているため、プログラム修正は毎月行なっています。

クレンジング

オープンデータは表記揺れや間違いも多く、そのままの状態では企業の情報システムに取り込むことはできません。そのため、収集したデータを正規化・クレンジング処理を行います。
表記揺れを単に除外するだけでなく、値の閾値評価、制度設計面からのデータ整合性評価などを行い、信頼性が低い値については信頼性が分かるフラグを付与しています。医療機関の属性情報以外にも、市区町村統廃合に対応するための郵便番号マスタ・住所マスタなどの更新等も行っています。

コード付与

オープンデータには信頼性が担保できるID がありません。医療機関番号は使い回されることがあるため、企業が利用するID として採用することはできません。そのため、当社が独自にSCUEL ID を付与します。SCUEL ID は移転前と移転後でも原則としてID 変更が無いためCRM など顧客管理上とても便利に利用できます。
一般的には医療機関番号を軸として管理すると移転や組織変更などでID 変更が発生してしまいます。
またSCUEL 事業所コードは、介護サービスを住所単位で集約する際にとても重要な役割を果たします。1 つの住所(拠点)でどのような介護サービスが提供されているかを明確にします。

データ検証


クレンジングされたデータの信頼性を様々な方法で検証します。例として、厚生労働省の統計値との比較、都道府県別の比較、学会公開情報との比較、前月データとの比較、異体字などによる文字欠け保管などをの検証用プログラムで実施する他、データを可視化して異常値に気がつきやすいような仕組みでチェックするなど、最後は人間の目によるチェックを行います。

納品

API または、CSV をFTPS やファイル共有システムを通じて納品します。契約により、毎月更新・四半期更新・半年更新・年次更新が異なるため企業別のデリバリパターンに対応できます。

フィードバック


SCUEL はデータベース購入企業からのフィードバックの他、scuel.me を通じて、医療機関や一般ユーザーからの修正依頼にも日々対応しています。SCUEL データベース契約企業様には、SCUEL データベースの品質管理システム(DQS)を契約条件により提供しています。DQS を活用いただくことで、直接SCUEL のデータベースに手軽に更新依頼をかけることが出来るため、毎月の更新も正確にかつ低コストで運用出来るようになります。

日本一信頼性が高く、扱いやすいデータベースを目指して

SCUEL データベースは、日本一信頼性が高く、扱いやすいデータベースを目指しています。データベースは利用するまで品質が分からない事は非常に問題だと考えています。そのため、私たちはデータベースの品質を客観的に評価しやすい指標の定義や、SCUELデータベースの信頼性を導入前から分かるような取り組みを行なってまいります。これからも、SCUELデータベース利用者様の声をお伺いして、日々利用しやすい、安心してご利用いただけるデータベースサービスの開発を行っております。