C# と VB.NET の質問掲示板

ASP.NET、C++/CLI、Java 何でもどうぞ

C# と VB.NET の入門サイト

webクローラの作成


(過去ログ 8 を表示中)

[トピック内 9 記事 (1 - 9 表示)]  << 0 >>

■8556 / inTopicNo.1)  webクローラの作成
  
□投稿者/ 暇人 二等兵(1回)-(2006/11/29(Wed) 02:56:06)

分類:[VB.NET] 


分類:[VB.NET] 

webクローラの作成をvb.netを用いて行っているのですが,リンクがうまく取り出せずになかなか進みません。今はたどったwebページのソースファイルを取り出し,そこのリンクのタグからリンク先を取り出し,それをたどっています.

しかし,リンクの表現方法がバラバラで,曖昧なことがあり,進むことができません.

リンク先のURLを取り出すのに,何かいい方法はありませんか?

0
引用返信 編集キー/
■8558 / inTopicNo.2)  Re[1]: webクローラの作成
□投稿者/ επιστημη 大将(292回)-(2006/11/29(Wed) 11:40:34)
επιστημη さんの Web サイト

分類:[VB.NET] 

> しかし,リンクの表現方法がバラバラで,曖昧なことがあり,進むことができません.

...たとえば? 絶対/相対の違いだけじゃなく?


0
引用返信 編集キー/
■8562 / inTopicNo.3)  Re[1]: webクローラの作成
□投稿者/ YAS 軍曹(70回)-(2006/11/29(Wed) 16:49:02)

分類:[VB.NET] 

ソースを自力で解析するのではなく,HtmlDocumentからタグを検索してみては?

0
引用返信 編集キー/
■8576 / inTopicNo.4)  Re[2]: webクローラの作成
□投稿者/ 暇人 二等兵(2回)-(2006/11/30(Thu) 00:24:46)

分類:[VB.NET] 

> ...たとえば? 絶対/相対の違いだけじゃなく?

絶対パスは正しく取れるのですが,相対については「i/」のみなど,パスの指定の種類が多すぎて全てを把握しきれません・・・


> ソースを自力で解析するのではなく,HtmlDocumentからタグを検索してみては?

そのページのソースを読み込み,「a href=""」の中身を読み取ることではなく?

0
引用返信 編集キー/
■8580 / inTopicNo.5)  Re[3]: webクローラの作成
□投稿者/ はつね 二等兵(6回)-(2006/11/30(Thu) 08:17:58)

分類:[VB.NET] 

No8576に返信(暇人さんの記事)
> 絶対パスは正しく取れるのですが,相対については「i/」のみなど,パスの指定
> の種類が多すぎて全てを把握しきれません・・・

相対パスも、現在地点が http://hogehoge/ のときに「i/」と指定されていたら、http://hogehoge/i/ ということなんじゃないでしょうか。
現在地点も一緒に覚えておくか、絶対パスに変えて覚えておくかという事だと思います。

曖昧な状態で動いてしまうのは人間くらいなもので、URLなどが曖昧だとIEが正しくページを特定できなくて閲覧できなんじゃないでしょうか。


0
引用返信 編集キー/
■8581 / inTopicNo.6)  Re[4]: webクローラの作成
□投稿者/ επιστημη 大将(296回)-(2006/11/30(Thu) 09:58:04)
επιστημη さんの Web サイト

分類:[VB.NET] 

>>絶対パスは正しく取れるのですが,相対については「i/」のみなど,パスの指定
>>の種類が多すぎて全てを把握しきれません・・・
>
> 相対パスも、現在地点が http://hogehoge/ のときに「i/」と指定されていたら、http://hogehoge/i/ ということなんじゃないでしょうか。

わしもそー思う。
相対パスの書式によってはURLが幾通りにも解釈されうるよな曖昧な
とこがあるのなら是非例示していただきたいのですけども。


0
引用返信 編集キー/
■8590 / inTopicNo.7)  Re[5]: webクローラの作成
□投稿者/ 中博俊 神(859回)-(2006/11/30(Thu) 13:02:16)

分類:[VB.NET] 

BASEタグとかはありますね。
あとはTARGETとか


0
引用返信 編集キー/
■8597 / inTopicNo.8)  Re[6]: webクローラの作成
□投稿者/ επιστημη 大将(299回)-(2006/11/30(Thu) 14:42:31)
επιστημη さんの Web サイト

分類:[VB.NET] 

> BASEタグとかはありますね。
> あとはTARGETとか

Webアプリおんちだからよーわからんけど、そーゆーのってhref="ここの内容"から
URLへの変換が煩雑/複雑なのであって、決して曖昧てことじゃないんすよね?


0
引用返信 編集キー/
■8603 / inTopicNo.9)  Re[7]: webクローラの作成
□投稿者/ 中博俊 神(860回)-(2006/11/30(Thu) 16:36:42)

分類:[VB.NET] 

IEがどう解釈するか、
xxがどう解釈するか、
yyがどう解釈するか、

は、曖昧であったりなかったり。




0
引用返信 編集キー/


トピック内ページ移動 / << 0 >>

このトピックに書きこむ

過去ログには書き込み不可

管理者用

- Child Tree -