ねもぷらす

ふぁいんでぃんぐねもの日記。プログラミングとか育児とか

ドウシマキョウとは

SEOワードなので 2007年12月17日までは 1件も検索エンジンに引っかかることはなかった。
気がつけば 1,400 ページ(1/11現在)。予想をはるかに超える広がりっぷり。

社内開催なので、参加者は14人。
方法は問わずだけどやっぱりブログに集中しちゃうわけで。ドウシマキョウで開設した(かつ更新があると思われる)ブログが12〜3個。どう見ても参加者より少ないです、本当にありがとうございました。
ブログの種類は hatena を筆頭に、ココログ、アメブロ、LivedoorBloggergeeklog などなど。かの Wikipedia にも登録された経緯もあるドウシマキョウですが、3時間でなくなったとか。

順位も結構頻繁に変化するようで、なかなか楽しかったです。
google 的な順位付けって、「文脈的意味」と「リンク」、どっちが優先するのかなぁ…
「検索エンジンを外側から考える」て言っておきながら、その手法までは検討できていませんでした。
あぁ、結果発表まで1週間を切ってしまった。ドウシマキョウ。

形態素解析

上記で実施してみたが、「ドウシマキョウ」で一単語という結果。まぁアタリマエか。

辞書的意味

複数の辞書を一括で検索してくれるサービスっぽいものを借りてやってみた結果。
形態素解析ができないんだから意味ないかな?と思ったけどやってみた。

ド :洋楽の階名の一。長音階第一度、短音階の第三度の音。
ドウ :無し
ドウシ :無し
ドウシマ :無し
ドウシマキョ :無し
ドウシマキョウ :無し
ウ :ウう。日本語の音節の1つ。鵜.
ウシ :ウシ生物_分類界動物界 Animalia門脊索動物門
ウシマ :無し
ウシマキョ :無し
ウシマキョウ :無し
シ : (1)洋楽の階名の一。長音階の第七度、短音階の第二度の音。(2)ロ( B )音の...
シマ :〔ケイ素(Si)とマグネシウム(Mg)に富むことから〕海洋地殻と大陸地殻下部とを...
シマキョ :無し
シマキョウ :無し
マ :無し
マキョ :無し
マキョウ :無し
キョウ :無し

まぁ、これらの単語に意味を持たせるのは苦しいよね。
じゃぁ意味的な部分ってどう関連付ければ良いのだ老化。

偶然発見、シソーラスオントロジー

単語に対してシソーラスを発生させれば、検索エンジンに1単語として判定されるに違いない。
全く新しい単語が登場するのは珍しいことではない。たとえば「アサヒる」だとか「ドウシマキョウ」だとか。
単語には「意味」がある。ではその「意味」をどうやって「単語」に教えるか?

ずっとベイズの定理で考えてました*1
単語出現の組み合わせにより、有用な文書であるか、スパムであるかを判定する。

  • >でもコレって辞書がないとだめだよなぁ
  • >->辞書ってどうやって更新するの?

で思考停止。

新語「ドウシマキョウ」に意味を伝えるには前後に「何か」を与えてあげればよい。
ex) 人名としての意味を負荷 -> ドウシマキョウさん

これで「人の名前を検索する」ような場合、検索結果で上位にヒットするようになることが期待できるのではないか?
同様に「良くある」カテゴリに対して新語を紐付けていけば…辞書の更新が自動であり人間のチェックを介入しないモノであれば、上位ヒットするに違いない。

結論

今回は「ページランク」がどのようにして決まるのかは一切調べておりません。
「私ならこうするな」という手法をひたすら試すという内容。
結果的にノイズが多すぎてイマイチでした。このまま何かの参考にすることはできなかったけど、1位で終了できるのであれば、これらの手法は「効果がある」といえましょう。


*1:ハッカーと画家より