より多くのデータが洗練されたアルゴリズムよりも優れている
最近、Anand Rajaramanさんのブログ記事を読みましたが、彼がスタンフォード大学の学生に出した課題について書かれていました。その課題では、学生たちはデータマイニングのタスクを実施し、その中で大半が「Netflix Challenge」と呼ばれる課題に取り組むことにしました。この課題では、参加者がNetflixのプラットフォームよりも優れた映画の推薦アルゴリズムを開発する必要があります。
このチャレンジでは、Netflixから提供されたデータセットを使い、多くの人が映画に評価を付けたものが含まれています。そして、評価されていない映画のスコアを予測することが課題です。これは、訓練データセットを受け取り、モデルをそれで訓練し、それからテストデータセットでそのモデルを試すという、典型的な問題です。ある一定のマージンを守りつつNetflixのアルゴリズムよりも高い精度を実現できれば、100万ドルの賞金がもらえるわけです。
その授業体験についてさらに詳しく述べる中で、Rajaramanさんは学生たちがいくつかの異なるアプローチを試したと言及しています。その中で、特に注目すべき2つのチームの取り組みがあります。チームAは問題を解決するために非常に洗練されたアルゴリズムを試みましたが、チームBはNetflixのデータセットにIMDB(インターネットムービーデータベース)から得たデータを融合させました。
結論として、チームBがより良い結果を出し、Netflixの精度にかなり近づいたとのことです。それはチームAの複雑なアルゴリズムよりもシンプルだったにも関わらずです。
コンピュータサイエンスコースでの私の経験
UFPAの「情報技術と社会」という科目では、もっと哲学的なアプローチの授業があり、計算技術が社会に与える影響について、さまざまな話題について議論するように促されました。私にとっては良い経験だったと思っています。
この科目での授業の1つではデータについて話し合い、先生がこんな刺激的な質問を投げかけました。「データは本当に新しい石油なのか?」
授業で討議するために先生が提供した情報源がこれだったか完全には確信が持てませんが、私はそうだったと思っています。リンクはこちらです:
その授業で私は最も熱心に参加した記憶があります。特にデータに関しては常に興奮していたからです。私は先生の提起した点にはまったく賛成できませんでした。先生にとって、本当に新しい石油となるのはデータを扱うアルゴリズムそのものの方であり、データそのものではなかったのです。
しかし私にとって、その比喩はとても明確でした。データは原料であり、それがなければ何も始まりません。また、石油が加工されていなければ無用なのと同じように、データも散らばっていて汚れている状態であれば何の役にも立ちません。それが処理され、価値を付加されるまでは何の役にも立たないのです。
Anand Rajaramanさんの記事を読んで、この議論をもう一度思い出しましたし、最終的には多くのデータが、非常に洗練されたアルゴリズムよりも問題を解決する力を持っているということをより強く信じるようになりました。
もちろん、これはアルゴリズムの研究をやめてしまえという意味ではありません。結局は同じ量Xのデータを持っていたら、より良いアルゴリズムがより良い仕事をするわけですから。
結論
これはここ数日の間、私の頭の中を巡っていたテーマであり、他の人々の意見にも興味深く思っています。石油に関するコメントで何か間違いを犯していたら申し訳ありません。私はSpace Todayの親愛なるSérgio Sacani氏のような専門家ではありませんので。
それはともかく、読んでくださって楽しんでいただければ幸いです。批評や提案、訂正はコメント欄で大歓迎です。次の記事でお会いしましょう。
こちらの記事はdev.toの良い記事を日本人向けに翻訳しています。
https://dev.to/nobrelucas/mais-dados-e-melhor-que-um-algoritmo-mais-eficiente-40mk