統計lodについて - ipaapi機能で利用できる統計 4...
TRANSCRIPT
ページビュー 約1,300万件(月)
統計表ダウンロード数 約5,000万件(年)
平成20年度に整備した「政府統計の総合窓口(e-Stat)」により、各府省公表する統計データを一元的・総合的に提供。
基幹統計等主要な統計についてはデータベース化。
政府統計の総合窓口(e-Stat)
1
登録されている統計データ・統計表(Excel、CSV等)
政府統計約500統計、約110万表
・統計情報データベース(XML)67統計(基幹統計52統計)、約8万データセット
※2016/5現在
統計におけるオープンデータの高度化
政府統計の中核的機関である総務省統計局及び(独)統計センターは、大量・多様な統計データの提供方法を次世代化し、データの高度利用を可能とする以下の取組を平成25年度から実施。
2.統計GIS機能の強化
1.API機能による統計データの高度利用環境の構築
2
API機能による統計データの高度利用環境の構築
平成25年6月から、統計局の統計データによるAPI機能の試行運用を開始し、平成26年10月31日から、e-Statの統計情報データベスに蓄積している全データを対象に本格運用を開始した。
平成28年3月末現在で約4,600件の利用登録があり、API機能を利用した統計データの取得件数は年間約3,000万件。
統計情報データベース
API機能
インターネット 民間企業の
情報システム
自治体の情報システム
自動的に反映
自動的に反映
活用例1:利用者の情報システムにe-Statのデータを自動的に反映
活用例2:ユーザー保有やインターネット上のデータ等と連動させた高度な統計データ分析他の情報・
サービス
政府統計のポータルサイト「e-Stat」に、新たにAPI機能(Application Programming Interface)を付加するとともに、蓄積された統計データを機械判読可能な形式で提供
API機能の概要
3
API機能で利用できる統計
4
政府統計の総合窓口(e-Stat)で提供している以下の統計調査結果を提供。(67統計、約8万データセット)※2016/5 現在※「統計情報データベース」等に登録されている統計データに限る。
府省庁名 政府統計名
総務省
地方公務員給与実態調査国勢調査住宅・土地統計調査住民基本台帳人口移動報告人口推計労働力調査就業構造基本調査社会生活基本調査個人企業経済調査科学技術研究調査サービス産業動向調査サービス業基本調査事業所・企業統計調査経済センサス-基礎調査経済センサス-活動調査家計調査貯蓄動向調査全国消費実態調査全国単身世帯収支実態調査家計消費状況調査小売物価統計調査全国物価統計調査消費者物価指数地域メッシュ統計社会・人口統計体系(都道府県・市区町村のすがた)
※ 統合等された統計調査については、調査実施・公表時の政府統計名としている。
府省庁名 政府統計名
法務省 出入国管理統計
財務省法人企業統計調査景気予測調査
国税庁 民間給与実態統計調査
文部科学省
学校基本調査学校保健統計調査学校教員統計調査社会教育調査地方教育費調査
厚生労働省
人口動態調査医療施設調査患者調査国民生活基礎調査毎月勤労統計調査賃金構造基本統計調査薬事工業生産動態統計調査社会保障費用統計
農林水産省
農業経営統計調査農林業センサス作物統計調査海面漁業生産統計調査木材統計調査牛乳乳製品統計調査
府省庁名 政府統計名
経済産業省
工業統計調査商業統計調査商業動態統計調査特定サービス産業実態調査経済産業省企業活動基本調査経済産業省生産動態統計調査経済産業省特定業種石油等消費動態統計調査鉱工業生産・出荷・在庫指数
資源エネルギー庁
石油製品需給動態統計調査ガス事業生産動態統計調査
国土交通省
港湾調査造船造機統計調査鉄道車両等生産動態統計調査船員労働統計調査自動車輸送統計調査内航船舶輸送統計調査自動車輸送統計調査法人土地・建物基本調査法人建物調査
順次、統計調査を追加していく予定
統計GIS機能の強化
エリア指定(任意)
指定されたエリアの統計
ユーザー保有のデータ
自社売上高
5
平成25年10月から、統計GIS 機能の試行運用を開始し、平成27年1月20日(火)から本格運用を開始した。
平成28年3月末現在で11,000件の利用登録。
ユーザー保有データの取り込み分析や任意に指定したエリアにおけるデータが利用可能になるような機能を提供
①ユーザーの保有するデータを取り込んで分析する機能の追加
②任意に指定したエリアにおける統計算出機能の追加
【活用例】
オープンデータと統計データの組み合わせ(小地域別6歳未満世帯員のいる世帯数と保育施設)
6
平成22年国勢調査小地域集計結果
6
駅
中野区役所ホームページより
2008年〜 e-Statの運用開始。EXCELファイル等のファイルダウンロードが中心 2014年〜 API機能の提供開始。プログラム等から自動的にデータの取得が可能 2016年〜 LODの提供開始。データ間のリンクが可能
政府統計の総合窓口(e-Stat)の今後
7
ファイルダウンロード
API
LOD
2008~
2014~
Excel
XMLJSON
2016~
2018/1
次期e-Stat
新たなデータ提供への取り組み
8
API機能の提供により、データのダウンロードや加工などをシステムに任せることができるようになり、利便性が向上。
しかし、似たようなデータが多数あり、データの定義も不明瞭なため、取得したいデータの検索などは、人の目で事前に確認し、対象データを指定(定義)することが必要となっている。
それぞれのデータの定義を明確にするとともに、データ間の関連性を定義することで、目的のデータを探しやすくなり、自動化がさらに進むのではないか。
LOD(Linked Open Data)による統計データの提供
国勢調査等の統計データをLODで提供する先進的取組として「オープンデータモデル事業」を、総務省統計局、統計センター、福井県、同県内全市町と連携して平成27年度に実施。(平成28年にe-StatからLODによるデータ提供を行う予定)
LOD(Linked Open Data)とは
9
他のデータとのリンク
IMF OECD
地方公共団体 データカタログ
「5スターオープンデータ」による公開レベル 統計データのLOD化のメリット
Linked-RDF
RDF
CSV
Excel
機械判読のしやすさでランク付け
http://5stardata.info/
段階 公開の状態 データ形式
1段階★
オープンライセンスでデータを公開 PDF、JPG
2段階★★
コンピュータで処理可能なデータを公開 XLS、DOC
3段階★★★
オープンに利用できるフォーマットでデータを公開 XML、CSV
4段階★★★★
Web標準(RDF等)のフォーマットでデータを公開 RDF
5段階★★★★★
他へのリンクを入れたデータ(LOD)を公開 Linked-RDF
編集不可
機械判読可能
編集可
※1 RDF(Resource Description Framework ):W3C(WWW (ウェブ)で利用される技術の標準化をすすめる国際的な標準化団体)により勧告(1999/02)されているウェブ上での言語やデータ構造・記述方法等に関する標準仕様。※2 SPARQL: W3Cにより勧告(2008/01)されているRDFを検索するための言語。
データをインターネット上で一意となる形式(URI)で定義し、関連性をリンクで表現
アプリケーションの標準化
データの標準化(国際標準(RDF※1)を利用)
アクセス方法の標準化(国際標準(SPARQL※2)を利用)
Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/ CC BY-SA
LOD(Linked Open Data)とは
10
ファイル(ページ)のリンクからデータのリンクへ
ファイル単位にアドレス付与(http://www.e-
stat.go.jp/xls0001.xls)
データ単位にアドレス付与(http://data.e-
stat.go.jp/lod/…/obs00001)
ファイルへリンク データへリンク
統計LODの事例
11
2011年の国勢調査のデータを提供。データ量は、約2000万トリプル
アイルランド中央統計局(CSO)
http://data.cso.ie/
イタリア国家統計局(ISTAT)
2011年の国勢調査のデータを提供.。メタデータ等はイタリア語。データ量は、約4000万トリプル
http://datiopen.istat.it
統計LODの概要(市区町村コード情報)
12
・都道府県・市区町村コード情報(統計に用いる標準地域コード)をLODで公開(2016年3月)・JIS X0401及びX0402で規格化されている5桁のコード(例:01000(北海道))に関する情報を提供。1970年からの廃置分合情報も含まれている。・統計の結果を市区町村などで表す時には、原則当該コードが使用されているが、統計以外の情報についても当該コードを使用している事例が多数あるため、当該コード情報をLODで提供することにより、各種データのリンクが期待できる。
http://data.e-stat.go.jp
SPARQLエンドポイント
共通語彙基盤と連携
統計LODの概要(統計データ)
13
RDF Data Cube Vocabularyは、統計データとメタデータの交換規約であるSDMX(Statistical Data and Metadata eXchange)をベースとしており、統計データを以下の要素で表現している。
・次元(Dimension): 何で分類しているか(地域、性別、産業分類など)・測度(Measure): 何で集計等しているか(人、世帯、価格など)・観測値(Observation): 実際のデータ(セルに該当)・属性(Attribute): データの属性(単位、状況(暫定値か)など)
イタリア国家統計局などの事例を参考ししつつ、RDF Data Cube Vocabulary(W3C勧告)をベースに作成
イメージ
1データ単位に、複数の次元(分類)や測度(人口)などの情報を定義する。
統計LODの概要(語彙の定義)
14
各種統計調査共通で利用される要素は、共通語彙(Cross Domain)として定義。・性別・年齢・日本標準産業分類(大・中分類)・日本標準職業分類(大分類)など
統計データを表す語彙(次元など)を定義。
統計調査ごとに利用する要素は、調査ごと定義。・家族類型(国勢調査)・従業上の地位(国勢調査、経済センサス)・産業分類(国勢調査、経済センサス)→ 日本標準産業分類とリンク(sameAS)・職業分類(国勢調査)→ 日本標準職業分類とリンク(sameAS)など
調査共通(Cross Domain)
調査単位
共通語彙基盤と連携?
統計LODの概要(語彙の定義)
15
他の定義情報とリンク
sex
haSesso
CL_SEX(2.0)
sex
性別
http://datiopen.istat.it/odi/ontologia/censimento/haSesso
http://data.e-stat.go.jp/lod/ontology/crossDomain/dimension/2016/sex
http://purl.org/linked-data/sdmx/2009/dimension#sex
urn:sdmx:org.sdmx.infomodel.codelist.Codelist=SDMX:CL_SEX(2.0)
skos:closeMatch
skos:closeMatch
skos:closeMatch
統計LODの概要(提供予定のデータ)
16
・国勢調査(2010年)・経済センサス基礎調査(2014年)・人口推計(2014年)・住民基本台帳移動報告(2014年)・労働力調査・消費者物価指数・社会・人口統計体系
国勢調査、経済センサスなど(7統計)の一部の統計データを提供予定。
データセット数 :15トリプル数 :約3億観測値(セル)数 :約2000万
提供する統計調査
提供データ量
統計LODの概要(システム構成)
17
e-Statの統計情報DBからR2RMLを利用してRDFに変換SPARQLエンドポイントはFusekiを使用
R2RML
Ontology
Staging table
統計情報DB
RDF StoreOracle 12c(Spatial and Graph)
Oracle 11g
Exadata X2-2
Fuseki
Fuseki
複数起動
SPARQL Endpoint
統計LODの概要(課題と今後の取組み)
18
・HTTPコンテントネゴシエーションへの対応
・共通語彙基盤との連携
・統計LODを作成・検討している機関や有識者等との意見交換を実施→設計等の見直しや今後の取り組み方法等を検討
提供環境
関係機関等の連携
・統計LODの利用方法、利用事例等を取りまとめた利用ガイドを作成
・統計データのRDF化の方法、考え方等を取りまとめた構築ガイドを作成
利用ガイド等の作成