言語処理100本ノック 2015の第3章: 正規表現の10問です。
20. JSONデータの読み込み
Wikipedia記事のJSONファイルを読み込み,「イギリス」に関する記事本文を表示せよ.問題21-29では,ここで抽出した記事本文に対して実行せよ.
gist1c2eef5c84cb1bb2f2ffc568d5d60d31
Goでjsonを触ったことがなかったので勉強がてら。 結果の表示は長すぎるので割愛します。
21. カテゴリ名を含む行を抽出
記事中でカテゴリ名を宣言している行を抽出せよ.
gistd85ddaaaeedb8accc0431d2ea8458fb5
Q20で抜き出した結果をtxt
に格納しています。
本問題は実質、L45-48のみです。
# go run q21.go [[Category:イギリス|*]] [[Category:英連邦王国|*]] [[Category:G8加盟国]] [[Category:欧州連合加盟国]] [[Category:海洋国家]] [[Category:君主国]] [[Category:島国|くれいとふりてん]] [[Category:1801年に設立された州・地域]]
22. カテゴリ名の抽出
記事のカテゴリ名を(行単位ではなく名前で)抽出せよ.
gistd36f7ebc49991afa58cb42101c9265b5
# go run q22.go イギリス|* 英連邦王国|* G8加盟国 欧州連合加盟国 海洋国家 君主国 島国|くれいとふりてん 1801年に設立された州・地域
正規表現のところをCategory:.*]
としました。
あとは表示する箇所を*
のところだけにしています。
23. セクション構造
記事中に含まれるセクション名とそのレベル(例えば"== セクション名 ==“なら1)を表示せよ.
gist4db740893310296693544caa501a9727
# go run q23.go 国名 1 歴史 1 地理 1 気候 2 政治 1 外交と軍事 1 地方行政区分 1 主要都市 2 科学技術 1 経済 1 鉱業 2 農業 2 貿易 2 通貨 2 企業 2 交通 1 道路 2 鉄道 2 海運 2 航空 2 通信 1 国民 1 言語 2 宗教 2 婚姻 2 教育 2 文化 1 食文化 2 文学 2 哲学 2 音楽 2 イギリスのポピュラー音楽 3 映画 2 コメディ 2 国花 2 世界遺産 2 祝祭日 2 スポーツ 1 サッカー 2 競馬 2 モータースポーツ 2 脚注 1 関連項目 1 外部リンク 1
(?m)
がないと^
が否定として認識されるところでハマりました。。。
24. ファイル参照の抽出
記事から参照されているメディアファイルをすべて抜き出せ.
gist6feafca211c2f0c574b60770553f1a71
# go run q24.go Royal Coat of Arms of the United Kingdom.svg Battle of Waterloo 1815.PNG The British Empire.png Uk topo en.jpg BenNevis2005.jpg Elizabeth II greets NASA GSFC employees, May 8, 2007 edit.jpg Palace of Westminster, London - Feb 2007.jpg David Cameron and Barack Obama at the G20 Summit in Toronto.jpg Soldiers Trooping the Colour, 16th June 2007.jpg Scotland Parliament Holyrood.jpg London.bankofengland.arp.jpg City of London skyline from London City Hall - Oct 2008.jpg Oil platform in the North SeaPros.jpg Eurostar at St Pancras Jan 2008.jpg Heathrow T5.jpg Anglospeak.svg CHANDOS3.jpg The Fabs.JPG PalaceOfWestminsterAtNight.jpg Westminster Abbey - West Door.jpg Edinburgh Cockburn St dsc06789.jpg Canterbury Cathedral - Portal Nave Cross-spire.jpeg Kew Gardens Palm House, London - July 2009.jpg 2005-06-27 - United Kingdom - England - London - Greenwich.jpg Stonehenge2007 07 30.jpg Yard2.jpg Durham Kathedrale Nahaufnahme.jpg Roman Baths in Bath Spa, England - July 2006.jpg Fountains Abbey view02 2005-08-27.jpg Blenheim Palace IMG 3673.JPG Liverpool Pier Head by night.jpg Hadrian's Wall view near Greenhead.jpg London Tower (1).JPG Wembley Stadium, illuminated.jpg
.*
でマッチさせようとすると最後の|
まで引っかかってしまうので.*?
としています。
File
とファイル
でわかれてるがめんどくさかったですね。。。
25. テンプレートの抽出
記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し,辞書オブジェクトとして格納せよ.
gistb73da44413a4ccb5c9e32bd95a7ae4a4
# go run q25.go イギリス ------------------ {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br/> *{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}([[スコットランド・ゲール語]])<br/> *{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}([[ウェールズ語]])<br/> *{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}([[アイルランド語]])<br/> *{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}([[コーンウォール語]])<br/> *{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}([[スコットランド語]])<br/> **{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}(アルスター・スコットランド語)</ref> ------------------ 現在の国号「'''グレートブリテン及び北アイルランド連合王国'''」に変更
最初に基本情報
を抜き出し、そこから|
で区切られるテンプレートを抽出しました。
公式国名
があるせいで、改行区切りではないので、\s\S
を用いて改行を含む抽出をしつつ、|
を区切りとしています。
ただし単純に\n|
を終端として持ってくると偶数回目が抜き出せなくなるので、\n|
をダブらせるように前処理を入れています。
同様に最後の注記も抜き出せなくなるので終端処理を入れています。
課題では辞書オブジェクト(Map)に格納するところまでですが、テストとして略名
と、ハマりどころの公式国名
、偶数番目、最後のテンプレートもちゃんと取れているかの確認用に確立形態4
、注記
を表示させてみました。
26. 強調マークアップの除去
25の処理時に,テンプレートの値からMediaWikiの強調マークアップ(弱い強調,強調,強い強調のすべて)を除去してテキストに変換せよ(参考: マークアップ早見表).
gist8fb6214399e84001eecfcd72acddd3c1
# go run q26.go 現在の国号「グレートブリテン及び北アイルランド連合王国」に変更
Q25を元に、ReplaceAllString
で'{2,5}
をマッチさせています。
確認用には確立形態4
を表示。
27. 内部リンクの除去
26の処理に加えて,テンプレートの値からMediaWikiの内部リンクマークアップを除去し,テキストに変換せよ(参考: マークアップ早見表).
gist0531301d5d7252c813b3f8bc12bd074d
# go run q27.go 1801年 244,820 1兆5478億<ref name="imf-statistics-gdp">[http://www.imf.org/external/pubs/ft/weo/2012/02/weodata/weorept.aspx?pr.x=70&pr.y=13&sy=2010&ey=2012&scsm=1&ssd=1&sort=country&ds=.&br=1&c=112&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a= IMF>Data and Statistics>World Economic Outlook Databases>By Countrise>United Kingdom]</ref> 2兆3162億<ref name="imf-statistics-gdp" /> イングランド王国/スコットランド王国<br />(両国とも連合法 (1707年)まで) グレートブリテン及びアイルランド連合王国建国<br />(連合法 (1800年)) 女王陛下万歳 ロンドン 246 1.3% 2兆4337億<ref name="imf-statistics-gdp" /> ±0 .uk / .gb<ref>使用は.ukに比べ圧倒的少数。</ref> 44 (イギリスの国章) {{lang|fr|Dieu et mon droit}}<br/>(フランス語:神と私の権利) 6 建国 1927年 {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br/> *{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}(スコットランド・ゲール語)<br/> *{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}(ウェールズ語)<br/> *{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}(アイルランド語)<br/> *{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}(コーンウォール語)<br/> *{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}(スコットランド語)<br/> **{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}(アルスター・スコットランド語)</ref> ロンドン デーヴィッド・キャメロン 927年/843年 GB / GBR 1707年 Flag of the United Kingdom.svg 22 63,181,775<ref>[http://esa.un.org/unpd/wpp/Excel-Data/population.htm United Nations Department of Economic and Social Affairs>Population Division>Data>Population>Total Population]</ref> 2012 グレートブリテン王国建国<br />(連合法 (1707年)) 2011 1 E7 36,727<ref name="imf-statistics-gdp" /> ファイル:Royal Coat of Arms of the United Kingdom.svg|85px Location_UK_EU_Europe_001.svg イギリスの君主 76 1 E11 +1 <references /> 2012 5 2012 イギリス グレートブリテン及び北アイルランド連合王国 英語(事実上) エリザベス2世 イギリスの首相 現在の国号「グレートブリテン及び北アイルランド連合王国」に変更 スターリング・ポンド (£) GBP
ルールは単純なのですが、意外と時間かかりました。
グループ文字列の概念をここで知ったのでFindAllStringSubmatch()
も使ってみました。
28. MediaWikiマークアップの除去
27の処理に加えて,テンプレートの値からMediaWikiマークアップを可能な限り除去し,国の基本情報を整形せよ.
gistb0ae0915872317ffa62cedb2c505d854
# go run q28.go 1 E7 1兆5478億<ref name="imf-statistics-gdp"> スターリング・ポンド (£) GBP 1.3% 244,820 2兆3162億<ref name="imf-statistics-gdp" /> 36,727<ref name="imf-statistics-gdp" /> ロンドン 2011 63,181,775<ref> グレートブリテン及びアイルランド連合王国建国<br />(連合法 (1800年)) 1927年 <references /> イギリスの君主 Flag of the United Kingdom.svg (イギリスの国章) エリザベス2世 {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br/> *{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}(スコットランド・ゲール語)<br/> *{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}(ウェールズ語)<br/> *{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}(アイルランド語)<br/> *{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}(コーンウォール語)<br/> *{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}(スコットランド語)<br/> **{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}(アルスター・スコットランド語)</ref> 1801年 +1 246 Location_UK_EU_Europe_001.svg 英語(事実上) ロンドン 5 2012 1707年 現在の国号「グレートブリテン及び北アイルランド連合王国」に変更 グレートブリテン及び北アイルランド連合王国 GB / GBR ±0 イギリスの首相 76 1 E11 2012 2兆4337億<ref name="imf-statistics-gdp" /> 建国 イングランド王国/スコットランド王国<br />(両国とも連合法 (1707年)まで) {{lang|fr|Dieu et mon droit}}<br/>(フランス語:神と私の権利) グレートブリテン王国建国<br />(連合法 (1707年)) .uk / .gb<ref>使用は.ukに比べ圧倒的少数。</ref> 44 927年/843年 ファイル:Royal Coat of Arms of the United Kingdom.svg|85px 女王陛下万歳 デーヴィッド・キャメロン 22 2012 6 イギリス
外部リンクとコメントアウトを消しました。
29. 国旗画像のURLを取得する
テンプレートの内容を利用し,国旗画像のURLを取得せよ.(ヒント: MediaWiki APIのimageinfoを呼び出して,ファイル参照をURLに変換すればよい)
gist84f53bc3fb6df3029aff323f42cb6c5d
# go run q29.go https://upload.wikimedia.org/wikipedia/en/a/ae/Flag_of_the_United_Kingdom.svg
API client書いたことがなかったので書いてみましたが、もっとちゃんと書けそうな気がしています。どういうことに気をつけて書くべきなのかも経験不足なので、今後の課題ですね。
感想
序盤はさくさく進んだので余裕かと思いましたが、後半でかなり手こずりしました。正規表現むずい。
今回もコードはGithubにも置いてあります。