■76031 / inTopicNo.1) |
HtmlAgilityPackでのスクレイピング(Form) |
□投稿者/ にゃむ。 (1回)-(2015/05/25(Mon) 20:29:17)
|
分類:[C#]
タイトルの通りです。
Html Agility PackでWebスクレイピングを試みましたが、文字化けしてしまいます。
C#は数年趣味程度で弄ってきましたが、Webスクレイピングに関しては全くの初心者です。
VS2013
----------------------
(Formアプリケーションです。)
botton1とtextBox1を任意の場所に配置しています。
botton1をクリックすると、
http://www.freem.ne.jp/win/category/3
から新作ゲームのタイトル(h4)を取得してTextBox1に出すというものです。
----------------------
private void button1_Click(object sender, EventArgs e)
{
textBox1.Text = "";
const string url = "http://www.freem.ne.jp/win/category/3";
WebClient web = new WebClient();
string html = web.DownloadString(url);
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);
HtmlNodeCollection nodes =
doc.DocumentNode.SelectNodes(@"//h4");
foreach (HtmlNode node in nodes)
{
textBox1.Text += node.InnerText + "\r\n";
}
}
----------------------
こうするとtextBox1に出てきた文字列は文字化けされてしまいます。
対象ページ内の「ゲームタイトル数」とtextBox内の行数が一緒だったので、取得する対象位置は間違ってないと思います。
ソースには「utf-8」と書いてのですが、utf-8では文字化けしてしまうのでしょうか。
前述しましたが、Webスクレイピングは全くの初心者です。
文字化けしてしまう原因と対処法を教えてください。よろしくお願いします。
(何か不備があれば言ってください。追加します。)
|
|