ツイート分析アルゴリズム

Ulhak

2022年4月28日に投稿

このアルゴリズムは、「n」という事前に定義した数のツイートのサンプルスペースを入力として受け取ります。また、トレンドで「x」という最もトレンドになっている数のトレンドも受け取ります。アルゴリズムを実行した出力は、サンプルスペースのツイートが減少する説明インデックスでランク付けされています。

アルゴリズムは2つの辞書を使用します。最初の辞書には、内容の説明にあまり重要でなく、文法的なツールである、すなわち、冠詞、前置詞、接続詞などの言葉のリストが含まれます。2番目の辞書には、全ての一般的な名詞、形容詞、副詞、動詞およびその派生語が含まれます。前者はここから「filter」と呼ばれ、後者は「cnfilter」と呼ばれます。

使用されたサンプルスペースはファイルに保存され、「%%」のようなツイートの終わりの文字で区切られます。ツイートを取得したら、ツイートのサンプルスペースが含まれるファイルで使われている各単語の頻度を見つけ出します。これは、「#」タグと「@」タグを除外することを意味します。ツイートのURLも、頻度を見つける際に無視されます。したがって、単語とそれに対応する頻度のリストが準備され、保存されます。

次に、もっともトレンディングしているツイートが他の高トレンディングツイートと関連性を持っているかをチェックする必要があります。同じイベントや人に関するツイートは有益な内容を持っていると考えられ、より関連性の高いデータを含んでいると見なすことができます。高トレンディングハッシュタグを持つツイートと、2回目でもっともトレンディングしているハッシュタグは、頻度を集めるために使われ、以前に生成された頻度表を更新するためです。

頻度リストが得られたら、その単語の重み付けスコアを見つけるために評価を行います。この重み付けスコアは、ツイートの総合スコアを得るために使われ、それによって内容の関連性によってツイートをランク付けすることができます。

また、ハッシュタグに関する新しいツイートから学び、より正確なツイートランキングを得る方法も提案されています。

こちらの記事はdev.toの良い記事を日本人向けに翻訳しています。
https://dev.to/ulhak/tweet-analysys-algorithm-50lp