C# と VB.NET の質問掲示板

わんくま同盟

ASP.NET、C++/CLI、Java 何でもどうぞ

C# と VB.NET の入門サイト


■89826 / )  【複雑条件】文字列から文字列を抜粋
□投稿者/ 一条 (1回)-(2019/01/06(Sun) 15:21:00)

分類:[.NET 全般] 

お世話になります。

現在スクレイピングソフトの開発にあたって、取得した文字列から特定文字列(主にURL)を抜粋しているのですが、

"http.+?\com" 現在この正規表現を使って http から com までの文字列を抜粋しています。

今回作りたいものとしましては、日本語を含むURLのみ抜粋する表現です。

http から com までの間で 日本語(ひらがなだけでも可)が入っているURLのみ抜粋になります。

https://hello/main.com     ☓抜粋しない
https://hello/こんにちは.com  ○抜粋する

一応今考えているモデルとしましては、
"http.+?\com" で文字列を取得し、日本語が含まれていれば別の文字列変数に格納というのを考えているのですが、
なかなかそれらしい構文を見つけれずにいます。
こうしたほうがいいよ、というのがありましたら

ご教授をお願いいたします。



返信 編集キー/


管理者用

- Child Tree -