ベクトル空間モデル
文章中の単語の重要度を利用して文章をベクトルで表現する。
文章同士の比較がベクトル空間上で比較して、類似度を計算するというやり方。
メールをフィルタリングするのに使われる。
仕組みが単純な割には結構役に立つので人気だそう。
しかし、本格的なモデルを作りたい場合は物足りないらしい。
単語の処理方法をいくつか紹介する。
tf・idf法
ある文章において、出現頻度が高く、特定の文章に偏在する単語を、文章全体の特徴を表す単語(有効語と呼ぶ)とみなす。
この動画なら少なくとも”just”と”do”と”it”は有効語でしょう。あと”dream”あたりも。
有効語を軸として文章をベクトル表現しているので、ベクトルの向きには文章の内容が反映されている。
内積で類似度を比較する。
tf (term frequency)は、単語の出現頻度の略。
idf(inverse document frequency)は、単語が出現する文章の割合の略。
tf × idf = その文章における単語の重要性。
有効語抽出
ざっくり言うと、文章中の単語の中から重要な単語を選ぶわけだ。
名詞・形容詞の語幹(「楽し」「明る」みたいな)あたりがよく有効語に選ばれる。
単語間共起
各文章が独立に存在する場合はtf・idf法が使われるが、文章の属するカテゴリが決まっている場合はこの方法を使う。
カテゴリ内の単語の共起(ある単語がある文章中に出たとき、その文章中に別の限られた単語が頻繁に出現すること。「松岡修造」さんに対して「熱い」みたいな)状況を考慮したベクトル空間がより良い。
文章分類システムに利用されている。
有効語抽出
カテゴリの特徴を表す単語、つまり特定のカテゴリに偏って出現する単語を有効語とみなす。(カテゴリが「ハンマー投げ」なら、有効語は「室伏広治」さん「重さ」「記録」あたりになりそうですね)
Binary Independenceモデル
クエリと文章を、タームベクトル(出現:1、非出現:0)で表現する。
各タームは独立しているとみなす。
つまり、文章内の用語(ターム, term)の有無のみを文章情報として利用する。
ベクトル d=(x1,….xm)とすると、用語tがあるとxt=1 ないとxt=0という感じ。
クエリ:データベース管理システムに対する処理要求(問合せ)のこと。
余談ですが、なんかBinary Independenceモデルを検索していると胡散臭いfxとか証券の自動売買ツールが出てきました笑。ちょっと意識高い新大学生とかがこんな感じの儲け話に乗って30万くらい払ったりするらしいですね。友達の友達に何人かいました。友達の友達いわく「そのうち」元が取れるそうです、、、、
情報検索の評価
データベースには、様々なデータが格納されているが、適合条件が与えられたとき、その適合条件を満たすデータを満たさないものに分類される。
再現率
情報検索の有効性の程度を示す評価指標。
適合データ(正解となるデータ)全体のどれだけが検索結果に含まれているかを示すもの。
検索された適合データの数/適合データの数
適合度(精度)
情報検索の有効性の程度を示す評価指標。
検索した結果に適合データ(正解となるデータ)がどれだけ含まれているかを示すもの。
検索された適合データの数/検索されたデータ数
F1スコア
再現率と適合率の調和平均
2・適合率・再現率/(適合率+再現率)
※算術平均は同じ重さで濃度が違う食塩水を混ぜた時の濃度のように比率の分母(水が同じ重さ。分子は塩)にくる数量が同じものに対して使うのがいい。
調和平均は、学校まで往復する行きと帰りの平均速度のように、比率の分子(同じ距離。分母は時間)にくる数量が同じものに対して使うのがいい。
コサイン類似度
PageRankアルゴリズム
よく見られているサイトにリンクが載ると表示されやすくしつつも、ある程度ランダムに選択してページを評価するアルゴリズム。
Google検索とかこれらしい。
ちなみに「世界でもっとも強力な9のアルゴリズム」って本がこの辺の説明が確かわかりやすかったです(売ってしまって手元にないので参考文献に書いてないけど)
https://amzn.to/3GJhI4X
HITSアルゴリズム
こっちがGoogle検索に使われているなんて話もあります笑
まぁそりゃ色々言われるでしょうし、色々使っているでしょうしね。
ハブ
例えば、ハブサイトなら、その分野に関連していて内容がいいサイトのリンクが載っている(紹介している)サイト。
まとめサイトとかがそんな感じ。
ハブスコアは、HITSアルゴリズムという仕組みによって付けられるスコア。
いわゆるサクラをフィルタリングしたり、いいコンテンツを検索結果上位になるようにスコアをつけている。
まとめると、
オーソリティへのハイパーリンク(いわゆるリンクのこと)への集合
オーソリティとして価値の固いページへリンクを貼っている
オーソリティ(authority)
直訳:権威、威信
例えば、オーソリティサイトなら権威あるウェブサイトということ。
その分野ではとても有名なサイトって感じ。
・他のオーソリティサイトにリンクが貼られている(紹介されている)
・人気のハブページにリンクが貼られている(紹介されている)
と、オーソリティサイトになりやすい。
優れたページへのリンクを貼ると(紹介すると)、紹介先のページのオーソリティスコアが加算され、紹介した側のハブスコアが加算される。
まとめると、
特定トピックに関する情報源・ハブとして価値の高いページからリンクを貼られている
ネットワーク・グラフ
グラフやネットワークは直接眺めてもよくわからないので、色々指標を使って分析します。
平均経路長
あるユーザ(ノード)からユーザ(ノード)に到達するまでに必要なステップ数。
ネットワークの大きさを表現する。
次数
ノードから出ている辺の数
次数相関は、あるノードの次数と、そのソードに隣接するノードの次数との相関を表す。
高い次数のノードが、高い次数のノードとリンクを持ちやすい(辺で繋がっている)なら、次数相関は正。
高い次数のノードなのに、低い次数のノードとリンクを持ちやすいなら、次数相関は負。
クラスタ係数
分かりやすく言うと、「自分の友達が100人いて、その100人同士でつながりがどれくらいあるか」
詳しく言うと、あるノードの次数を v として、
クラスタ係数= 「あるノードAに隣接するノード」同士のリンク数✖︎2/v(v-1)
クラスタ係数が高いなら、隣接するノード同士が繋がりまくっているってことなので、ネットワークの関係の密度が高い。
ネットワークの凝集性がわかる。
中心性
ノードの特徴を調べるための指標。
ネットワークでなく、個々のノードに注目して、局所を分析する。
次数中心性
次数そのもの。次数4のノードの次数中心性は4。
近接中心性
自分以外のノードの数/全てのノードからの距離の和
そのノードの周りに他のノードがどのくらい近くにあるかの指標。
媒介中心性
他のノードにたどり着くために当該ノードを通らなければならない割合
情報の流れの中心性の指標
「このネットワーク使ってるとこのノードがめっちゃ通るな」ってノードは高い値になる
めっちゃ知り合い多いやつみたいな
スケールフリーネットワーク
次数分布がべき分布で表現
大多数は小さい次数(ほとんどの次数はめっちゃ小さい)で、大きな次数はちょっとだけ。
ランダムネットワーク
次数分布が正規分布で表現
平均値の周りに分布(ベルカーブ)
参考文献
研究キーワードメモ(個人_京都大学)
https://www.cse.kyoto-su.ac.jp/~g0846020/keywords/keywordsTop.html
情報検索におけるベクトル空間モデルの応用(大谷紀子)
http://www.comm.tcu.ac.jp/kiyou/no5/P099-109.pdf
適合率と再現率(東京工芸大学)
http://www.cs.t-kougei.ac.jp/SSys/Pre_Rec.htm
SEOのホワイトハットジャパン
https://whitehatseo.jp/authority_site-and-hub_site/
NII市民講義:複雑科学とネットワーク〜つながり方の科学〜国立情報学研究所 福田健介
https://www.nii.ac.jp/userdata/shimin/documents/H19/071113_6thlec.pdf
複雑系の科学・複雑ネットワーク 東京大学大学院工学研究科 鳥海不二夫
http://syrinx.q.t.u-tokyo.ac.jp/tori/lecture/complex/network2.pdf
Probabilistic information retrieval
https://nlp.stanford.edu/IR-book/pdf/11prob.pdf
ウィキベディア
https://ja.wikipedia.org/wiki/Binary_Independence_Model
コメント