C# と VB.NET の質問掲示板

わんくま同盟

ASP.NET、C++/CLI、Java 何でもどうぞ

C# と VB.NET の入門サイト

ツリー一括表示

big dataとインターネット /クマコ (18/11/30(Fri) 20:56) #89506
Re[1]: big dataとインターネット /Azulean (18/12/01(Sat) 00:40) #89510
│└ Re[2]: big dataとインターネット /クマコ (18/12/01(Sat) 07:48) #89512
│  └ Re[3]: big dataとインターネット /Azulean (18/12/01(Sat) 09:25) #89513
Re[1]: big dataとインターネット /Jitta (18/12/04(Tue) 11:19) #89554
  └ Re[2]: big dataとインターネット /クマコ (18/12/16(Sun) 18:25) #89705
    └ Re[3]: big dataとインターネット /クマコ (18/12/16(Sun) 18:29) #89706
      └ Re[4]: big dataとインターネット /かずき (18/12/17(Mon) 00:18) #89707
        └ Re[5]: big dataとインターネット /かずき (18/12/17(Mon) 13:45) #89713


親記事 / ▼[ 89510 ] ▼[ 89554 ]
■89506 / 親階層)  big dataとインターネット
□投稿者/ クマコ (4回)-(2018/11/30(Fri) 20:56:19)

分類:[ネットワーク全般] 

最近big dataという言葉をよく耳にしますね。
データの元はインターネットでしょう。
インターネットからたくさんの情報データを取得するのは容易に想像できます。
実際もそうですね。
ただ、どうやってインターネットから必要とするデータを取得するのでしょうか。

私は人間によってHOMEページのアドレス(URL)を一つ一つ手で入力したり、あるいはGOOL頁に検索キーワードを入力したりして
人間の目で有用な情報をコピーしてといてファイルの形で保存する方法しか知りません。
このような方法で『big data』を集めようとしたら、過労死までやっても目的を達成することはできないですね。

実際、何か高度な自動化方法があるのでしょうか。
具体的な方法やツールをご紹介頂ければ理解し易いかと思います。

ぜひご教授お願い致します。




[ □ Tree ] 返信 編集キー/

▲[ 89506 ] / ▼[ 89512 ]
■89510 / 1階層)  Re[1]: big dataとインターネット
□投稿者/ Azulean (1016回)-(2018/12/01(Sat) 00:40:36)
No89506 (クマコ さん) に返信
> データの元はインターネットでしょう。
> インターネットからたくさんの情報データを取得するのは容易に想像できます。

インターネット網を利用するのが楽だというのは事実ですが、インターネット網が前提ではありません。

たとえば、改札機で IC カードによる入場・出場の情報、そのカードの持ち主の属性、時間帯といった情報を集積した場合、年間にどれだけのデータ量になるか。
これだけでは単なる通過履歴ですが、何らかの仮説を立てて分析して検証する、AI に学習させるといったことで、人の流量の予測など、何らかの活用ができるかもしれません。

別の例でいえば、アメダスといった日本全国に多数ある雨量計などの天候観測機器から入力される情報や、過去の気象情報を元に天気を予報する、これもある意味、データの蓄積と分析、活用の一例と言えるでしょう。

さらに別の例でいえば、Google は多数のサイト・ページを収集し、何らかの評価軸をもって、キーワード検索結果の順位付けをしています。
これはページ間のリンクの量だったり、ユーザーのクリック量だったり、検索エンジンを使うユーザーの反応と言ったデータを蓄積してさらなる改善を目指している中で見つけた評価軸なのかもしれません。


結局、どのようなデータに着目し、どのような分析をし、どのように役立てるかを考える部分が大事であり、漠然とデータを集めることに効果があるわけではありません。
質問文で示される「人間の目で有用な情報」という尺度で言うと、その人の主観や理解力・興味などに大きく左右されますので、その有用と判断するための評価関数の作成は難しいでしょう。

こういった一般論で質問されても具体的な答えや有力な答えになりづらいと思います。
[ 親 89506 / □ Tree ] 返信 編集キー/

▲[ 89510 ] / ▼[ 89513 ]
■89512 / 2階層)  Re[2]: big dataとインターネット
□投稿者/ クマコ (5回)-(2018/12/01(Sat) 07:48:45)
No89510 (Azulean さん) に返信

親切にご説明本当にありがとうございます

こういった一般論で質問されても具体的な答えや有力な答えになりづらいと思います。

自分の質問の目的が誤解されやすかったかと思い、お詫びします。

質問の目的はbig dataをインターネットから自動収集の方法です。
例えば、日本において本当に英語力と仕事や生活の関係(本当に宣伝のほど英語が大事かどうかを裏付けるために)

このような目的を達成するためにインターネットから色々関連情報を収集し、解析するという仮説のテーマです。

何をキーワードにし、どうやって分析するのは質問の趣旨でなく、
インターネットからデータ自動収集の具体方法やツールを知りたいのです。

またどうぞよろしくお願いいたします。


[ 親 89506 / □ Tree ] 返信 編集キー/

▲[ 89512 ] / 返信無し
■89513 / 3階層)  Re[3]: big dataとインターネット
□投稿者/ Azulean (1017回)-(2018/12/01(Sat) 09:25:59)
2018/12/01(Sat) 10:35:47 編集(投稿者)

No89512 (クマコ さん) に返信
> 質問の目的はbig dataをインターネットから自動収集の方法です。
> 例えば、日本において本当に英語力と仕事や生活の関係(本当に宣伝のほど英語が大事かどうかを裏付けるために)
>
> このような目的を達成するためにインターネットから色々関連情報を収集し、解析するという仮説のテーマです。

この時点である程度の仕分け、分析が前提になっています。
漫然とページを集めても時間がかかるだけで有用な情報になりません。

「英語力と仕事や生活の関係」「英語がどれほど大事かどうかを裏付ける」ためには、どのようなものを示せれば良いかを複数の仮説を考え、それに適したキーワードでの検索が前提となっています。
仮説を考えて検証することが調べる人・チームの課題です。

たとえば、英検を持っているか否か、持っているとしたら何級なのか、その人はどんな仕事をしていて、どの程度の年収なのかである程度の相関性が得られる?というのであれば、SNS などのプロフィールを狙ってみるとか考えられるかもしれません。
結局、知りたいことに対してどのように調べるかが決まっていないと、動き出すことはできません。

大量のデータをいくつかの軸で見てみるという分析はあくまで、データが揃っていることが前提です。
インターネットはデータが揃っているとは言いがたいので、ビッグデータの情報源としてそのまま使うことはできません。
何らかの整形が必要であり、その整形は目的に応じた方法を自ら考え、場合によっては開発することが必要になります。


> インターネットからデータ自動収集の具体方法やツールを知りたいのです。

先にも書きましたが、インターネットには膨大なデータがあり、テラバイト単位を超えるでしょう。
そんなものを事前絞り込みなく、自動収集していたら、通信量・時間もかかりますし、蓄積先のストレージにもお金がかかります。
仮にすべて蓄積できたとしても、その中から目的の情報を絞り込むのにも何十日とかかり、「無駄なデータ」となるでしょう。

たとえば、5ch のページが収集されたとして、そのページのレスすべてを1人の投稿と見なしていたら間違いですが、特定個人のブログはすべてのポストを1人とみなせます。
このようにページごとに情報の切り出し方や信頼度などが大きく変わりますので、何らかの分析・分類・整形は必要となります。


よって、今の質問に対しては「そういったもの(どんな目的にも使えるツールは)は存在しないでしょう」ということになると思います。
逆に存在しないからこそ、調査会社が存在し、成立するのだと思います。
(それらの会社で保有されているツールはいわゆる飯の種なので公開されていないでしょう)
[ 親 89506 / □ Tree ] 返信 編集キー/

▲[ 89506 ] / ▼[ 89705 ]
■89554 / 1階層)  Re[1]: big dataとインターネット
□投稿者/ Jitta (431回)-(2018/12/04(Tue) 11:19:32)
No89506 (クマコ さん) に返信

例えば、製造工場なら、製品を作る上でセンサーがあったり、
検査を行った結果があります。
最近の車なら、車両状況を様々なセンサーで収集し、メンテナンスに使います。

例えば、「スクレイピング」で検索してみましょう。
[ 親 89506 / □ Tree ] 返信 編集キー/

▲[ 89554 ] / ▼[ 89706 ]
■89705 / 2階層)  Re[2]: big dataとインターネット
□投稿者/ クマコ (7回)-(2018/12/16(Sun) 18:25:54)
皆さん アイディアをいただき非常に感謝します。

『WEBから』必要なデータを収集することに限定して、
複数のキーワードを入力して返してくれた結果からデータ整形を行うのを想定して質問したいのです。

『複数のキーワードを入力して返してくれた結果』:
これはgoogleやyahooのページで検索機能と同じで、ただ返してくれたのはWEBページのようなフォーマットではなく、
指定したフォーマットのレコードに自動になってくれるということです。

上記のような機能:WEB検索+整形・レコードまとめを自動的に実現しくれるツールを知りたいのですね。
この分野長い間人気があって十分盛んでいると思いますね、それなりの共通ソフトツールがあるでしょう。





[ 親 89506 / □ Tree ] 返信 編集キー/

▲[ 89705 ] / ▼[ 89707 ]
■89706 / 3階層)  Re[3]: big dataとインターネット
□投稿者/ クマコ (8回)-(2018/12/16(Sun) 18:29:23)
検索するためのの『複数のキーワード』の間にはOR関係やAND関係を指定したり、データ更新の期間も指定します。



[ 親 89506 / □ Tree ] 返信 編集キー/

▲[ 89706 ] / ▼[ 89713 ]
■89707 / 4階層)  Re[4]: big dataとインターネット
□投稿者/ かずき (1回)-(2018/12/17(Mon) 00:18:33)
ないです。
フォーマットもバラバラ、書いてる内容もまちまち、そんななかから魔法のようにデータだけを自動で都合よく抜いてくれるものは無いです。
[ 親 89506 / □ Tree ] 返信 編集キー/

▲[ 89707 ] / 返信無し
■89713 / 5階層)  Re[5]: big dataとインターネット
□投稿者/ かずき (2回)-(2018/12/17(Mon) 13:45:39)
無いだけだと突き放しすぎかと思ったので参考リンクを。
既にスクレイピングというキーワードが上で出てましたが、それのことを書いてる記事をみつけましたのではっておきます

https://blog.codecamp.jp/python-scraping

こういった分野はpythonを使う人が多いので相対的に関連ツールも、そこの界隈に集中することが多いので探しものをするときはpythonをキーワードにいれてするといいと思います。
[ 親 89506 / □ Tree ] 返信 編集キー/


管理者用

- Child Tree -