Mecha Lady Shogi Blog: メカウーサー（twitter bot）誕生秘話(2)

だいぶ間が空いてしまいましたが、メカウーサー誕生秘話その２です。

今回は特にメカウーサーの実装についてお話したいと思います。

メカウーサーのエンジンはいわゆる「マルコフ遷移」を使ったタイプのエンジンです。
他にも保存している発言の名詞、動詞などを入れ替える方式がありますが、あえてメカウーサーではマルコフ遷移のエンジンにこだわっています。

初めてマルコフ遷移という言葉を聞いた方に、簡単にその原理を説明します。

ある単語「例：メカウーサー」とその次の単語「例：は」（助詞とします）の間には、共に共起しやすい（一緒に出やすい）２単語もあれば、逆に一緒には出にくい２単語の場合もあります。

そこでメカウーサーコーパス（うーさーさんが用意してくださった、1MBに及ぶ言語資料）から、すべての単語について、その次に出やすい単語の集合を求めます。このとき１回でも一緒に出現した２単語の間には「接続可能性」があるとして、これをPythonのハッシュ内に納めておきます。

{ u'メカウーサー': {u'は', u'の', u'には', ...}}

そして、前件（前の単語）でハッシュを引くと、次にくる単語の集合が得られるようにしておきます。

文章生成のときは、まず、文頭の単語の全集合から任意の単語を抽出し、その単語でハッシュを引いて、次の単語候補を選びます。
次の単語候補の集合が得られたら、その中からランダムに次の単語を選びます。
これを、「。」が来るまで繰り返します。これが初期のメカウーサーのエンジンの仕様です。

実際には一番出やすい単語をスコアを付けて保存するのですが、メカウーサーの初期のバージョンではあえて、接続するもの全てを許して、やや口語っぽい表現も出やすくしていました。また、最近のバージョンではPythonのdictをcPickleしたものを文章生成時に取り出していましたが、昔はBerkeley DBへのバインディングを使ってKey-Value pairのデータベースファイルにアクセスしていました。

実際のメカウーサーでは前件を２単語、後件を１単語からなる「単語トライグラム（trigram）」を使って文章生成を行っていました。また、文長の制御や句読点の密度を調整する関数を使って、丁度よいあんばいになるように、文章の加工を行って出力していました。

ここまでがVer.3.14と呼ばれているバージョンの主な実装になります。
コーパスの文章を単語に分割するのはMeCabと呼ばれる処理系を使いました。実装はPythonで行いました。最終的に python twitterと呼ばれるライブラリでtwitterにポストしていました。

CS4では係り受けの結果を利用しました。具体的には前件、後件に単語ではなく文節をあてて、文章生成を行いました。結果3.14のときよりもさらに日本語らしい文章の生成に成功しました。

より日本語らしい文章になったというコメントをいただいたCS5は、実は単語分割した表層（文字面）しか使っていません。しかしあれだけの精度の高い文章が生成可能です。実はとあるライブラリを使って文章生成を行っています。これはいまのところ、秘密です☆
共起のしやすさも考慮しています。

なお現在ではtwitterへのポストをtweepyと呼ばれるOAuth投稿可能なライブラリに変更しています。

実際の運用はMac Miniで行っています。少し古いですが、Hudsonで投稿の成功／失敗を管理しています。現在４つのタスクがHudsonには登録されていて、その内二つはkimrin専用の「寝坊したらBossにメールするw」アプリが、また残り二つのうち一つがメカウーサーで、もう一つは秘密のメカウーサー試験用アカウントへの投稿を行っています。

以上こんな感じになります。ではちゃお〜（文責：kimrin）

Mecha Lady Shogi Blog

2012年2月23日木曜日

メカウーサー（twitter bot）誕生秘話(2)

0 件のコメント:

コメントを投稿

自己紹介

ブログアーカイブ