C# と VB.NET の質問掲示板

ASP.NET、C++/CLI、Java 何でもどうぞ

C# と VB.NET の入門サイト

Re[6]: DataTableに特殊なフィルタリングをかけたい

(過去ログ 81 を表示中)

[トピック内 13 記事 (1 - 13 表示)]　 << 0 >>

■47826 / inTopicNo.1)

　DataTableに特殊なフィルタリングをかけたい

▼■

□投稿者/ オーブ (1回)-(2010/03/16(Tue) 10:13:15)

分類:[VB.NET/VB2005 以降]　

開発環境　VB2008 EXP
現在、以下のようなことを行おうとしています。

１．任意の抽出条件によりデータを抽出し、DataTableに格納する。
２．類似内容の行を排除するため、DataTableの各行について、対象行に含まれるキーワードが、
　　他の行に含まれている場合は、対象行を削除する。
　　（対象行に含まれるキーワードの抽出方法は、独自のロジックを使用します。）
　　※例
　　　対象行のキーワードが、"りんご"・"バナナ"・"みかん"であった場合、
　　　"りんご"・"バナナ"・"みかん"を含む他の行がDataTableに存在する場合は、対象行を削除する

そこで、自分なりに考え、以下のように処理を行ってみました。

１．検索結果をDataTableに格納
　　DataTableには、"テキスト"と"ID"という列があるとする。
２．DataTableの全行スキャンのためのループ開始
３．　DataTableの対象行の"テキスト"項目より、含まれているキーワードを抽出（独自ロジック）
４．　フィルタ用式を作成（例えば、対象行に含まれているキーワードが"りんご"・"バナナ"・"みかん"の場合、
　　　テキスト LIKE '%りんご%' AND テキスト LIKE '%バナナ%' AND テキスト LIKE '%みかん%' AND ID <> (対象行のID)
　　　※とりあえず、%記号等のエスケープは無視します
５．　DataTable.Select(フィルタ式)やDataView.RowFilterでフィルタ式を設定する。
６．　フィルタ式に該当する行がある場合は、DataTableの対象行をDeleteする
７．次の行に移動する（２．のループのはじめに戻る）

しかし、DataTable内の行数が1000件くらいだと、私のPCでは20秒近くかかってしまいます。
よく調べてみると、５．の処理をコメントアウトすると上記処理はすぐ終わるので、どうやらフィルタ設定で時間がかかるようです。
上記のようなことを実現し、かつもう少し処理を早くする方法はないでしょうか？
もちろん、DataTableを使用しない方法でも結構です。
アドバイスの程、よろしくお願いします。

引用返信 編集キー/

■47833 / inTopicNo.2)

　Re[1]: DataTableに特殊なフィルタリングをかけたい

▲▼■

□投稿者/ nori (92回)-(2010/03/16(Tue) 11:23:24)

2010/03/16(Tue) 11:30:35 編集(投稿者)

つhttp://bbs.wankuma.com/index.cgi?mode=al2&namber=14929&KLOG=31
検索したらでてきたこれでどうですか？

# 速くなるか分りませんが。。。

引用返信 編集キー/

■47834 / inTopicNo.3)

　Re[1]: DataTableに特殊なフィルタリングをかけたい

▲▼■

□投稿者/ 自作 (30回)-(2010/03/16(Tue) 11:29:51)

■No47826 (オーブさん) に返信
同じ質問者ならハンドル変えるのやめて欲しい。
質問者は、回答者が必要とする情報を十分に提供していない場合が
多いのだから、少しでも過去の情報を把握しておきたいから。

ローカル(.Net Framework)に期待するのは無理があるのでは？
データベース側のチューニングやストアドで、結果だけもらえば
いいのでは？
# ってローカルで DataTable 作ってる可能性もあるのか。。。
# いやでも、検索結果ってところからはじまってるし。。。

引用返信 編集キー/

■47835 / inTopicNo.4)

　Re[1]: DataTableに特殊なフィルタリングをかけたい

▲▼■

□投稿者/ 魔界の仮面弁士 (1552回)-(2010/03/16(Tue) 11:31:17)

■No47826 (オーブさん) に返信
> どうやらフィルタ設定で時間がかかるようです。

試していませんが、DataView.RowFilter の代わりに、
Enumerable.Where メソッドを使ってみては如何でしょう。

引用返信 編集キー/

■47838 / inTopicNo.5)

　Re[2]: DataTableに特殊なフィルタリングをかけたい

▲▼■

□投稿者/ みきぬ (825回)-(2010/03/16(Tue) 11:48:31)

■No47834 (自作さん) に返信
> ■No47826 (オーブさん) に返信
> 同じ質問者ならハンドル変えるのやめて欲しい。

どのスレッドの質問者と同じだと思ったのか、どうしてそう思ったのか、説明がいると思います。

> 質問者は、回答者が必要とする情報を十分に提供していない場合が
> 多いのだから、少しでも過去の情報を把握しておきたいから。
>
このスレッドで、質問者がどういう情報を十分に提供していないのですか？
で、それは自分が十分な情報を提供していないことの言い訳になるのですか？

ちなみに、私は異なるスレッドで異なるHNを使っててもあまり気にしません。

引用返信 編集キー/

■47842 / inTopicNo.6)

　Re[2]: DataTableに特殊なフィルタリングをかけたい

▲▼■

□投稿者/ オーブ (2回)-(2010/03/16(Tue) 13:22:39)

皆様、コメント頂きありがとうございます。
■No47835 (魔界の仮面弁士さん) に返信
> ■No47826 (オーブさん) に返信
>>どうやらフィルタ設定で時間がかかるようです。
>
> 試していませんが、DataView.RowFilter の代わりに、
> Enumerable.Where メソッドを使ってみては如何でしょう。

Enumerable.Whereについて検索したところ、以下に説明がありました。
http://msdn.microsoft.com/ja-jp/library/bb534803.aspx
しかし、Enumerable.Whereを使うとき、以下のようなフィルタ式はどのように作成すればよいのでしょうか？
テキスト LIKE '%りんご%' AND テキスト LIKE '%バナナ%' AND テキスト LIKE '%みかん%' AND ID <> (対象行のID)
この"りんご"や"バナナ"といったキーワードの内容および数は対象行により変動します。
魔界の仮面弁士様、もう少しアドバイスをお願い頂けますでしょうか？
よろしくお願いします。

引用返信 編集キー/

■47844 / inTopicNo.7)

　Re[1]: DataTableに特殊なフィルタリングをかけたい

▲▼■

□投稿者/ みきぬ (826回)-(2010/03/16(Tue) 13:40:10)

■No47826 (オーブさん) に返信
> 開発環境　VB2008 EXP
> 現在、以下のようなことを行おうとしています。
>
> １．任意の抽出条件によりデータを抽出し、DataTableに格納する。
> ２．類似内容の行を排除するため、DataTableの各行について、対象行に含まれるキーワードが、
> 　　他の行に含まれている場合は、対象行を削除する。
> 　　（対象行に含まれるキーワードの抽出方法は、独自のロジックを使用します。）
> 　　※例
> 　　　対象行のキーワードが、"りんご"・"バナナ"・"みかん"であった場合、
> 　　　"りんご"・"バナナ"・"みかん"を含む他の行がDataTableに存在する場合は、対象行を削除する
>
「DataTable に格納するときに、類似内容であれば格納しない」とすれば、比較の回数を半分程度にできそうな気がします。
# 半分でも10秒か...

ところで、仮に10行目と13行目が類似していた場合、いらないのはどっちですか？
元のロジックだと、おそらく10行目が削除されると思います。
私のロジックだと、13行目が追加されないようになります（10行目が残ります）

引用返信 編集キー/

■47848 / inTopicNo.8)

　Re[2]: DataTableに特殊なフィルタリングをかけたい

▲▼■

□投稿者/ オーブ (3回)-(2010/03/16(Tue) 14:06:34)

■No47844 (みきぬさん) に返信
> ところで、仮に10行目と13行目が類似していた場合、いらないのはどっちですか？
> 元のロジックだと、おそらく10行目が削除されると思います。
> 私のロジックだと、13行目が追加されないようになります（10行目が残ります）

みきぬ様、コメントありがとうございます。
10行目と13行目が類似していた場合、どちらが残ってもOKです。
ただし、10行目で抽出されるキーワードが"りんご"・"バナナ"・"みかん"で、
10行目で抽出されるキーワードが"りんご"・"バナナ"・"みかん"・"メロン"の場合は
10行目のキーワードはすべて13行目のキーワードに含まれ、13行目のキーワードの数が多いため（"メロン"がある）
13行目を残し、10行目を削除したいのです。
例が悪くて申し訳ありませんが、如何でしょうか？
どのようなロジックで組み立てればよいか、アドバイスを頂けますでしょうか？
よろしくお願いします。

引用返信 編集キー/

■47850 / inTopicNo.9)

　Re[3]: DataTableに特殊なフィルタリングをかけたい

▲▼■

□投稿者/ オーブ (4回)-(2010/03/16(Tue) 14:08:32)

> ただし、10行目で抽出されるキーワードが"りんご"・"バナナ"・"みかん"で、
> 10行目で抽出されるキーワードが"りんご"・"バナナ"・"みかん"・"メロン"の場合は

申し訳ありません。以下に訂正します。
ただし、10行目で抽出されるキーワードが"りんご"・"バナナ"・"みかん"で、
　　　　13行目で抽出されるキーワードが"りんご"・"バナナ"・"みかん"・"メロン"の場合は

引用返信 編集キー/

■47854 / inTopicNo.10)

　Re[3]: DataTableに特殊なフィルタリングをかけたい

▲▼■

□投稿者/ みきぬ (827回)-(2010/03/16(Tue) 16:08:12)

> どのようなロジックで組み立てればよいか

(条件1) 既にある行で、挿入しようとしている行のキーワードがすべて含まれる行がある
(条件2) 挿入しようとしている行が、既にある行のキーワードをすべて含んでいる

として、DataTable へ行を挿入しようとする時に
・条件1 を満たす（条件2はどちらでもいい） → 挿入しない
・条件2 だけ満たす → 既にある行を削除してから挿入
・どちらも満たさない → 挿入
という風にすればいけそうかな。

データ件数の２乗のオーダーで比較が必要なのは動かせない（と思う）ので、遅くなるのはどうしようもないかも…。
# 仮に where を使えたとしても、それぞれの試行で全件検索がいるのは変わらないはず

もしも、複数の行をうまいこと１つのグループにまとめてそれをかわりに比較に使うことができれば、かなりの割合で比較回数を抑えられそうだけど…難しそう。

引用返信 編集キー/

■47862 / inTopicNo.11)

　Re[4]: DataTableに特殊なフィルタリングをかけたい

▲▼■

□投稿者/ オーブ (5回)-(2010/03/16(Tue) 18:29:47)

■No47854 (みきぬさん) に返信
> (条件2) 挿入しようとしている行が、既にある行のキーワードをすべて含んでいる
> ・条件2 だけ満たす → 既にある行を削除してから挿入

この「条件2だけ満たす」は、既にある行すべてをチェックする必要があると思うのですが、
これも結構時間がかかりそうですよね。

引用返信 編集キー/

■47863 / inTopicNo.12)

　Re[5]: DataTableに特殊なフィルタリングをかけたい

▲▼■

□投稿者/ みきぬ (828回)-(2010/03/16(Tue) 18:54:12)

■No47862 (オーブさん) に返信
> ■No47854 (みきぬさん) に返信
>>(条件2) 挿入しようとしている行が、既にある行のキーワードをすべて含んでいる
>>・条件2 だけ満たす → 既にある行を削除してから挿入
>
> この「条件2だけ満たす」は、既にある行すべてをチェックする必要があると思うのですが、
> これも結構時間がかかりそうですよね。

条件1と条件2はセットでチェックできると思いますが、
2件目を挿入しようとする時には1回、1000件目を挿入しようとする時には999回のチェックがいります（類似が1つもなかった場合）
なので合計すると、1 + 2 + ... + 999 = (1 + 999) * 999 / 2 = 499500 回のチェックがいる、と。

元の方法だと、DataTable のそれぞれのレコードに対して自身を除いた999回のチェックがいるので、999 * 1000 = 999000回のチェックがいりますよね。
なのでチェック回数は半分ですむよ、というのが No47844 で書いたことです。

ただ前にも書いた通り、件数の2乗に比例する（O(n^2)）のは私の方法でも変わらないので、根本的に遅いのがどうにかなるわけではないです。
でも、探そうとしていることが全件検索が必要な類の処理なので、そこはどうしようもないのかなと思うのですが…どうなんでしょうねえ。

// 以下余談

ちなみに最良ケース（全件類似している場合）だと、私の処理は 1 × 999 回のチェック（つまり O(n)）ですむのに対し、元の処理では 999 + 998 + ... + 1 = 499500 回のチェックがいる（つまり、やっぱり O(n^2)）ので、類似するデータが多いほど効果は大きいんじゃないかなと思います。

引用返信 編集キー/

■47887 / inTopicNo.13)

　Re[6]: DataTableに特殊なフィルタリングをかけたい

▲▼■

□投稿者/ オーブ (6回)-(2010/03/17(Wed) 10:13:01)

皆様、色々とお騒がせしましたが、以下の方法で、大幅な処理速度向上をはかることができました。

前提：ClassXというクラスを用意し、このクラスには以下のメンバを用意する
　　・IDプロパティ
　　　　検索結果を格納するDataTableの"ID"列の内容を格納
　　・ListKeyWordプロパティ
　　　　検索結果を格納するDataTableの"テキスト"列より抽出したキーワードのList(Of String)を格納
　　・Similarメソッド
　　　　比較用のClassXインスタンスを引数にする。
　　　　引数のID <> 自身のIDかつ、引数のListKeyWordの要素すべてが自身のListKeyWordに含まれていればTrueを返す
１．検索結果をDataTableに格納
　　DataTableには、"テキスト"と"ID"という列があるとする。
２．DataTableの全行の内容を、lst_ As List(Of ClassX)に格納する。
３．List(Of ClassX)の末尾から先頭に向かってループ開始
４．　対象行のClassXに類似する要素がList(Of ClassX)に存在する場合、対象行のDataTable要素およびList(Of ClassX)要素を削除する。
　　　類似要素の存在チェックは以下のように行う。
　　　lst_.Exists(Function(c) c.Similar(lst_.Item(i))) 'iはループの対象要素インデックス
５．前の行に移動する（３．のループのはじめに戻る）

この結果、検索結果をDataTableに格納した後にかかる時間が、私のPCで
旧方式：約24秒
新方式：約8秒
となりました。
とりあえずこの結果に満足しておりますので、これにてこの質問は解決とさせて頂きます。
ありがとうございました。

解決済み

引用返信 編集キー/

トピック内ページ移動 / << 0 >>

このトピックに書きこむ

過去ログには書き込み不可

- Child Tree -