2016年8月22日月曜日

「カルチャロミクス」?Googleの底力!

【このテーマの目的・ねらい】
目的:
 過去の図書の内容を分析すると、そのほんの一部でも
 こんなことができるという驚きの事実を知っていただきます。
 その実現のインフラを作ったグーグル社の凄さを知っていただきます。
 「へーそうだったのか」という事実のいくつかを知っていただきます。

ねらい:
 インフラ整備は大事、ビッグデータ分析にはアイデアが大事ということを
 肝に銘じましょう。
ーーーーーーーーーーーーーーーーーーーーーーーーーー
「カルチャロミクス」とは、カルチャ(文化)を測定し解析する
という意味の造語です。

大量の文献をビッグデータとして計測し、
社会や文化の動態を研究するのです。

この研究をしたのが著者である米国人二人ですが、
その研究の元になる文献の電子化を行ったのは
グーグル社です。















著者二人の研究は、著作権等の制約があったために、
文章としての解析は諦め、
単純に単語としての出現頻度の解析だけをしたことが、
思わぬ成果を生むことになったのです。

その手法がグーグル・Nグラム・ビューアです。
単語の出現頻度や概念・思想に言及する頻度が
時間と共にどのように推移したかを図で示すものです。

グーグルは3000万冊を超える図書を電子化しました。
その方法は、贈呈された本はばらしてスキャナにかけ、
そうでない本はめくる係と写真を撮る係の組み合わせで
写しまくり、それをOCRで読み込んだのです。

大金持ちのグーグルでないとできない気の遠くなるような取組みです。

3000万冊超はどの英米系の大学図書館よりも上です。

全世界の図書1億3000万冊の内での3000万冊です。
(上野注:どの範囲の図書を言っているのか不明です。
日本語の図書が含まれていないことは確かです)

こんなことができるグーグルはとてつもない)会社ですね。
驚きです!!

カルチャロミクスの手法を用いると、
次のような解明ができます。

英語の不規則変化動詞
(Burn,Burnt,Burnt、のようにedが付かない)
は次第に規則動詞に変化して行っているようです。


古英語(800年ごろに使われていた英語)の教科書と
中英語(12世紀を中心に使われた英語)の教科書を比較しました。


古英語には177の不規則動詞がありましたが、
中英語では145になっていて、あとの32は規則動詞になっていた。


残っているのは使用頻度が高い単語で、
使用頻度の低い単語から規則化されていっていることが判明しました。
「言葉は生きている」ことの証明です。

(グラフをクリックすると拡大します)














米国名を示すUnited Statesは建国の頃は複数形で扱われ、
次第に単数形で扱われるようになったのです。
そのグラフは以下のとおりです。

(グラフをクリックすると拡大します)













 

有名人の名声程度(時間軸も含み)を図書での出現頻度で測定する。

(グラフをクリックすると拡大します)















著名人の職業別に、何歳でどの程度有名になっているかを測定する。

(グラフをクリックすると拡大します)















こういうのもありました。

(グラフをクリックすると拡大します)














米国ではより直接的表現になってきているのです。
日本語では、「H(する)」とぼかしています。
日本人の方が奥ゆかしいですね。


以下は、
この図書の解説者である高安美佐子東工大準教授の解説です。


言葉には、以下の4種類があり、それぞれ生成・消滅の形が異なります。

1.非流行語
  出現頻度は一定値の回りでランダムに時間的に揺らぐ。
  (しかし、ともかく、など)

2.流行語
  時間と共に指数関数的に数年単位で増加し、ピークを迎えて
  指数関数で減少する。
  (KY、パンケーキ、映画タイトルなど)

3.ニュース語
  突然、不連続的に劇的に増加し、その後べき乗の関数で減少する。
  (津波、マイケルジャクソン、など)

4.イベント日語
  特定のイベント日付に向かってべき乗で増加し、
  その後べき乗で減少する。
  (クリスマス、こどもの日、など)

利用の限界
Nグラムという発想は素晴らしいものですが、
せっかくのビッグな図書データの利用法としては
たいへんもったいないことです。

著作権や個人情報保護に抵触しない範囲で
図書の内容を分析することができるようになったら
人類の文化の進歩についてどれだけのことが分かるようになるのか
想像もできないくらいのことがありそうです。

Nグラムの発明の前段の発明として、
「ジップの法則」なるものが紹介されていました。
1930年代から1940年代までハーヴァード大学に在籍し
独文科の学科長を務めたジョージ・キングスリー・ジップ氏が
1937年に発見した法則です。

これは、ユリシーズに出てくる単語の出現頻度の順位と
使用頻度とは逆比例の関係にある。
たとえば、1位と10位では使用頻度が10分の1、
50位と500位も10倍の開きがある。
というものです。

このジップの法則は、、
他の新聞記事中の単語、中国語やラテン語で書かれた本の中の単語
でも見られた。
その後の研究で、この規則性は、
既知のあらゆる言語の普遍的構成原理であることが明らかになっている
のです。

凄いことを見つける人がいるのですね!!


0 件のコメント: