5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

形態素解析と日本語処理

1 :デフォルトの名無しさん:05/01/25 07:38:01
日本語はご存じの通り、文章が単語で区切られていません。
そこで検索のインデックスを作る際には、まず単語や品詞に分ける必要があります。
これを形態素解析といいます。
このスレでは、その形態素解析について語っていきましょう。

2 :デフォルトの名無しさん:05/01/25 07:58:59
Prolog屋なのですが、この分野の知識は全くありません。
勉強させてください。


3 :デフォルトの名無しさん:05/01/25 08:01:53
自然言語処理スレッド
http://pc5.2ch.net/test/read.cgi/tech/1011988273/

4 :デフォルトの名無しさん:05/01/25 08:13:52
お、茶筌ネタかい?いいねぇ。


5 :デフォルトの名無しさん:05/01/25 08:38:39
まずは、漢字、ひらがな、カタカナ、句読点、記号などで分ける。
それから?

6 :デフォルトの名無しさん:05/01/25 08:52:32
分けるとどうなるんだろう?
試してみますかね。

7 :デフォルトの名無しさん:05/01/25 10:35:40
それくらいなら頭ん中で試せば十分だろ。

8 :デフォルトの名無しさん:05/01/25 11:16:33
次に品詞でわけてみるる。


今日は良い天気ですね。

今日|は|良い|天気|です|ね|。

(は(今日((天気 (良い ) です)ね)))

「今日は」は2通りの解釈がある。

こんにち|は|良い|天気|です|ね|。

きょう|は|良い|天気|です|ね|。


9 :デフォルトの名無しさん:05/01/25 11:29:05
もう1通りあるんじゃない?

こんにちは|良い|天気|です|ね|。

10 :デフォルトの名無しさん:05/01/25 11:29:45
漢字かな混じりの文章はわかりやすいですが、ディクテーション情報(音素から組んだ文章、要は全部ひらがなとかローマ字)から形態素分析って可能なんでしょうか?
人はどのように判断しているんでしょうかね?


11 :デフォルトの名無しさん:05/01/25 11:30:54
何か良い死霊ないの?

12 :デフォルトの名無しさん:05/01/25 11:45:23
ここではきものをぬいでください

13 :デフォルトの名無しさん:05/01/25 13:04:03
あしがりのわをかけやまのかずのきのわをかずさねもかずさかずとも

あれもしかしてあしがらだったか

14 :大原ゆき:05/01/25 13:24:00
大原ゆきが華麗に2get

15 :デフォルトの名無しさん:05/01/25 14:11:19
?

16 :デフォルトの名無しさん:05/01/25 14:17:03
http://www.unixuser.org/~euske/doc/postag/index.html


17 :デフォルトの名無しさん:05/01/25 19:06:20
きょうはいしゃにいく

今日歯医者に行く
今日は医者に行く

18 :デフォルトの名無しさん:05/01/25 20:06:04
こっちは初心者スレ?

19 :デフォルトの名無しさん:05/01/25 20:13:33
>>18
どちらかというと、より特化したスレ。

20 :デフォルトの名無しさん:05/01/25 20:20:37
すもももももももものうち

21 :デフォルトの名無しさん:05/01/25 21:45:51
最初に区切りとなる文字を探すところから始める?

22 :デフォルトの名無しさん:05/01/25 21:52:35
プロが来ないと駄スレの予感…

23 :デフォルトの名無しさん:05/01/25 22:01:41
形態素解析システム茶筌
ttp://chasen.naist.jp/hiki/ChaSen/

24 :デフォルトの名無しさん:05/01/25 22:22:19
はんかくかたかなはやめろ

半角カタカナ早めろ
半角カタカナは止めろ

単なる誤変換スレ化?

25 :デフォルトの名無しさん:05/01/25 23:28:36
>>22
すでに研究されつくされたテーマって気がするが。
1はスレ立ててないで、論文探した方がいいんじゃないの?

26 :デフォルトの名無しさん:05/01/25 23:29:37
>>25
本当にそうかな?
もしそうなら完璧にできるソフトが存在するはずだ。

27 :デフォルトの名無しさん:05/01/25 23:34:31
そうとも限らんだろ。
完璧にできるソフトが作れるはずの論文が存在するはずだ、
ならいえるかも知れないが。


28 :デフォルトの名無しさん:05/01/25 23:39:03
もしくは完璧に作るのは不可能だ、という論文な。


29 :デフォルトの名無しさん:05/01/25 23:44:04
>>28
その手の論文は数十年後に破られるのがありがちな話なので、それはなんとも。


30 :デフォルトの名無しさん:05/01/26 03:59:06
>>29
> その手の論文は数十年後に破られるのがありがちな話なので、

実例キボン


31 :デフォルトの名無しさん:05/01/26 06:28:42
完璧に出来てるだろ
茶筅とか
あとは辞書を増やすだけ

32 :デフォルトの名無しさん:05/01/26 07:03:44
統計推論型のはまだ全然

33 :デフォルトの名無しさん:05/01/26 15:03:57
なんつーか先が無さそうでかわいそうな分野だよね

34 :デフォルトの名無しさん:05/01/27 06:45:35
じゃあこのスレで日本語変換システムを一つ作るってのはどうだ?
かんなやうんぬは丸っきりクソだろ?

35 :デフォルトの名無しさん:05/01/27 07:01:31
名前は「ぬるぽ」

36 :デフォルトの名無しさん:05/01/27 07:10:51
>>34
Windows用なら参加する。

37 :デフォルトの名無しさん:05/01/27 07:50:52
形態素解析のアルゴリズムさえできれば、WindowsでもXでも使えるだろう。

38 :デフォルトの名無しさん:05/01/27 09:12:34
UnicodeかShift_JISかeuc-jpか。文字コード多いよ。低レベルの処理ではデータ構造を抽象化すると遅くなるから、高位のメソッドを抽象化しないと。
gchは抽象化された符号なし文字。
typedef unsigned int uint;
inline gch*GchNext(gch*);
inline gch*GchPrev(gch*,gch*);
inline uint GchLen(gch*);

39 :デフォルトの名無しさん:05/01/27 09:59:27
まず、お前のエロ雑誌に出現する品詞をKAKASIかCHASENかJUMAN使って統計してくれ。

40 :デフォルトの名無しさん:05/01/27 10:11:38
>39
をっさん、何を統計するだ?

品詞の数、品詞の並び方のパターン、パターンのパターン…。
文法上の属性か?

41 :デフォルトの名無しさん:05/01/27 13:38:18
まあどうがんばってもATOKには勝ち目ないし

42 :デフォルトの名無しさん:05/01/27 19:53:40
まずはどういう設計にするのかを決めないと。データだけあっても仕方がない。

43 :デフォルトの名無しさん:05/01/27 19:54:42
いや、データさえあれば簡単だ。俺なら1日で組める。

44 :デフォルトの名無しさん:05/01/27 20:03:54
>>43
それだったら君個人で作ればいいじゃない。

45 :44:05/01/27 20:06:18
ごめん、全言撤回。

46 :デフォルトの名無しさん:05/01/27 20:07:13
だからデータがねえっつってんだろ。
日本語わからねえのか?
おまえこそ形態素解析勉強して日本語読めるようになれよ。

47 :44:05/01/27 20:07:54
×全
○前

48 :デフォルトの名無しさん:05/01/27 20:11:09
>>46
どんなアルゴリズムにするつもりなの?
データが豊富にあったら良い物ができるの?本当に?

49 :デフォルトの名無しさん:05/01/27 21:00:31
アルゴリズムなんて問題じゃない。
何度も言うが、必要なのはデータとデータ構造だ。

50 :デフォルトの名無しさん:05/01/27 21:10:05
文法データならCHASENとKAKASIからXMLパーサ使って借りてこい。
他のちまちましたデータは辞書.comや省庁回ってこい。

51 :デフォルトの名無しさん:05/01/27 21:13:24
ポータルサイトも膨大な情報を分類しているだろ

52 :デフォルトの名無しさん:05/01/27 21:19:24
細かい実装はうんぬの公開情報見ればいいだろ。今は変換先読みとWeb辞書連携が主流だ。

53 :デフォルトの名無しさん:05/01/27 21:20:58
なんでそんなに堅実に作ろうとするんだろう。
新規性はないの?

54 :デフォルトの名無しさん:05/01/27 21:25:59
日本語ワープロの元祖では変換候補を木構造でしぼりこんでいく単純なものだ。それこそデータがあれば一日で作れる。
大学のwebに逝けば変換方法の論文は腐るほど見付かる。ぐぐれ!

55 :デフォルトの名無しさん:05/01/27 21:28:46
>>54
うん、知ってる。

56 :デフォルトの名無しさん:05/01/27 21:32:22
ここで作れるのは、特定の用途に特化した入力補助エンジンと概念データベースくらいだろ?違うか?

57 :デフォルトの名無しさん:05/01/27 21:35:22
いちいち探すのマンドクサイ。誰か秘密基地作れよ

58 :デフォルトの名無しさん:05/01/27 21:50:31
aを任意の名詞節とする。文「aを食べる」をJUMANやKAKASIなどで統語的に調べ、機械的に品詞並びにする。
文「aを食べる」が真の場合、aは食べ物に分類される。このように、その文の真偽から食べ物かどうかを知ることができる。
文が偽の場合、その文はどんな文脈にあるか?

59 :デフォルトの名無しさん:05/01/27 21:57:24
>58
夢や空想、憶測などの心の中の出来事や会話などの文脈に多い。〜と思う、〜と言う、考える。
また、物語や体験談などでは以前の勘違いを打ち消すことが多い。

60 :デフォルトの名無しさん:05/01/27 22:01:56
このように、比較的規則的に書かれた文書から概念の意味や分類法を抽出できるはずだ。

61 :デフォルトの名無しさん:05/01/27 22:10:14
>60
要するに、2ちゃんねるみたいな不規則なソースから知能を作るのは無理そうだな。

62 :デフォルトの名無しさん:05/01/27 22:12:10
>>61
2ちゃんねるは日本語としておかしい文章が多いけれど、規則性がないとは言えない
と思うような気がするでそ

63 :デフォルトの名無しさん:05/01/27 22:25:10
そこで「知能とインターフェースの段階的進化法」を唱える!

64 :デフォルトの名無しさん:05/01/28 11:10:05
「ん」を「そ」に変えれば2ちゃん語っぽくなる

65 :デフォルトの名無しさん:05/01/29 21:59:33
形態素解析された誤りの含まれた文章を、文字マルコフ連鎖で誤りの場所を
探したのですが上手く誤りの場所を探すことができませんでした。
何かいい方法はないでしょうか?アドバイスください、よろしくお願いします。


66 :デフォルトの名無しさん:05/01/29 23:44:34
>>65
出来の良い売り物を買えばよいです

67 :デフォルトの名無しさん:05/01/30 01:34:18
>>65
総当たり

68 :デフォルトの名無しさん:05/01/30 05:45:19
>>33
> なんつーか先が無さそうでかわいそうな分野だよね
ある手法のことをウェブで比較的あっさり批判してる人がいて、批判された方
がマジでキレてるのには笑った。同じ専門分野の研究者として悲しいとか恥か
しい、みたいなことまで書き連ねてた。

批判の内容が正当なのか間違ってるのかは自分は門外漢だから判断できん。で
も研究の上で不当な批判を受けるのなんか当たり前。誤解や不当な評価があっ
たら、無視したっていいし、冷静に反論してもいい。

細かいことを感情的にウジウジつつくようになってるのはタコツボ化してる何
よりの証拠だね。


69 :デフォルトの名無しさん:05/01/30 15:12:04
>>65
単純にマルコフ連鎖だけを頼りにすると、助詞が邪魔になってうまくいかないって意味?

70 :デフォルトの名無しさん:05/01/30 15:25:47
つーか、どんなレベルの誤りを検出しようとしている?


71 :デフォルトの名無しさん:05/01/30 15:42:05
>>70の文章だと全体に下線がつくレベル。

72 :デフォルトの名無しさん:05/01/30 16:14:15
>>65
ベイズ推定使え。

73 :デフォルトの名無しさん:05/01/30 16:39:53
>>72
bayesはどう考えても無茶だろ(藁

74 :65です:05/01/31 00:11:16
音声認識装置によって書籍を何文か出力させて、これをマルコフ連鎖モデル
にかけて置換誤りなどの誤りの場所を探したいのですが誤りのある部分が閾値を
下回ってくれず上手くいきませんでした。これは音声認識装置は単語区切り(形態素解析)
で文章を出力しているので文字マルコフでは有効ではないということなのでしょうか?
上手く探すいい方法はないでしょうか?(構文解析とか使うのかなあ?)
詳しい方、アドバイスもらえないでしょうか。長文でゴメンナサイ。

75 :デフォルトの名無しさん:05/01/31 01:45:11
閾値を厳しくする

76 :デフォルトの名無しさん:05/01/31 03:31:01
誰かがいぜんやってたが、2chのスレを形態素解析する。そしてマップを作る。
そこまではそいつがやってたが、精度をあげ、リンクなども絡めて
新しい掲示板のトップメニューとして確立したらどう?
まったく新しいインデックスになるよ。KnoppixのHPで紹介されてる
ウェブの中での自分の位置みたいな地図を
掲示板に特化して作るわけ。
そうするとインデックスからスレ同士の関係が把握しやすい。

例えば総合の質問スレにレスつけるか専用の質問スレにレスつけるかどうか
検索せずに目的のスレの大体の場所がわかる。そのスレから引用されてる、
もしくは言及されてる単語が載っているほかのスレも判る。

って、WebProgの新しい掲示板作るスレで言ったらまったく相手にされなかったよ


77 :デフォルトの名無しさん:05/01/31 08:18:43
それと同じことはベイズ推定を利用したメールのフィルタリング機能やWikiの機能として
既に実現されてるけどな。

78 :デフォルトの名無しさん:05/01/31 18:38:30
このスレ全体的に他のスレよりレベル高杉。
もう少しかみ砕いて、わかりやすく説明してください

79 :デフォルトの名無しさん:05/01/31 20:12:49
マルコフとかベイズとか日本語の解析するなら日本人だしてこいや。
名前出せるほどのものがあるかどうかはしらんが…。

80 :デフォルトの名無しさん:05/01/31 21:36:48
>>78
2・3の専門用語が出ているけれど、この世界では当り前だから、要は慣れです。
知っているか知っていないかの違いですね。
しかも、それほど複雑でも無いので、自分で調べてください。

81 :デフォルトの名無しさん:05/01/31 22:50:45
>>76
スレタイ検索に実装して、関連スレを検索可能にするのも楽しそうだけど

82 :デフォルトの名無しさん:05/01/31 23:49:38
>>76
カキコしている人が無意識のうちにやってるカテゴライズを
もう一回やり直すのね。

83 :デフォルトの名無しさん:05/02/01 01:44:42
>>76
形態素分析なんかしないで、スレの内容を適当にベクトル化して
クラスタリングでもしてみるのも面白いかもしれない。

84 :デフォルトの名無しさん:05/02/01 02:00:57
>>83
自分で何言ってるかわかってないだろ。
ベクトル化の前に形態素解析(でもn-gramでもいいけどさ)があるんだろ。


85 :デフォルトの名無しさん:05/02/01 02:09:14
形態素解析せずにスレの内容をベクトル化する方法を教えてください

86 :デフォルトの名無しさん:05/02/01 04:16:29
>>85
文字種でベクトル化
日本語の場合、結構いけるかもよ

87 :デフォルトの名無しさん:05/02/06 02:01:36

http://www.touchgraph.com/TGGoogleBrowser.php?start=unit.aist.go.jp/it/knoppix/

88 :デフォルトの名無しさん:05/02/09 01:03:38
形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
用いれば簡単にできます。
ただし、問題は、そのためには、各種辞書とかが必要です。
もちろん、それに伴う、確率値とか、コストとか。

さらに、連語とか、複合語とかをどのようにあつかうかとか、
未知語(辞書にない言葉)とかをどのように扱うとか、
いろいろな問題があります。

そこらあたりをなんとかかいぬぐり実用に達しているのが、茶筅とか
その部類の有名な形態素解析な感じです。

研究的にはやりつくした感はありますが、実用にはほど遠いと思います。
これはもはや情報処理というよりは言語学の力を借りないと難しいな
と、個人的には思います。

89 :デフォルトの名無しさん:05/02/09 04:54:41
>>88
> 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
「ヴィタビ」(もしくはビタビ)ってんだよ。

90 :デフォルトの名無しさん:05/02/09 08:37:26
えっと、kakasi のいわゆる「お知らせ問題」は、
もうどうしようもない事実として受け止めるしかないんでしょうか?
http://ofo.jp/osakana/diary20030522.phtml

POPFile とかも kakasi を使ってるんで、
なんとか解決方法 & パッチは無いものかと思っているんですが。

91 :デフォルトの名無しさん:05/02/09 08:53:35
>>88
> 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
> 用いれば簡単にできます。

理屈としてはヴィタビがいいけど、実際に使われるのはA*が多いだろ。

92 :デフォルトの名無しさん:05/02/09 11:46:08
>>90
「お知らせ」なら「知らせ」で検索させた後で
「お」が付く文脈かどうか判定するフロントエンド作れ。

93 :デフォルトの名無しさん:05/02/11 21:17:11
おまいら、教えて下さい。
漏れのマシンは別に一太郎やらATOKやらはインスコしてないのに
C:\Program Files\Justsystem\JSLIB32\AddWord2.exe
なんてものがあります。で、バージョン情報を見たら
「Js形態素解析登録プログラム」とかってなってますた。これってなんですか?
どうしてこんなもんが入ってるか調べる方法とかありますか?

94 :デフォルトの名無しさん:05/02/11 21:42:32
スレ違い

95 :93:05/02/11 23:38:49
    〃〃∩  _, ,_
     ⊂⌒( つД`)
       `ヽ_ ノ ⊂ノ
              グスグス・・

       ∩
     ⊂⌒(  _, ,_) グスン・・・。
       `ヽ_つ ⊂ノ

96 :デフォルトの名無しさん:05/02/12 10:01:04
取りあえずそれを立ち上げて
http://www.sysinternals.com/ntw2k/freeware/procexp.shtml
こういうのでどのプロセスが他に起動するか見てみればどう?

もしくは他のソフトを一個一個試してみてその形態素解析の奴が一緒に
立ち上がった瞬間を見ておくしかないな。

サービスの一つに関連付けられてるかもしれんし。

わかったら何のためのプログラムか、何に使えるのか報告ヨロ




97 :デフォルトの名無しさん:05/02/12 15:00:27
教えてください。
昨年からJuman-4.0を使っています。
これはどのような特徴を持ったソフトなのですか。


98 :デフォルトの名無しさん:05/02/12 15:05:38
>>97
http://chasen.org/~taku/blog/archives/2004/02/chasen_2.html

99 :デフォルトの名無しさん:05/02/12 17:23:44
文楽の義太夫なんか聴く場合、7・5調の音数律のような意識を
働かさないと理解しがたい。少なくとも私には。
こういうものがメインにはなりえないだろうが、並列処理で
音数律解析が働いている、なんてことはできないものだろうか。


100 :デフォルトの名無しさん:05/02/12 21:34:30
日本語の文を形態素解析すると、構文木を作成できると思います。
その構文木から動詞基準で格構造を抽出する方法ってあるでしょうか??
意味解析が利用できれば可能なのでしょうか・・



101 :デフォルトの名無しさん:05/02/12 23:11:10
だからそれがわからんからこうやって議論してるんじゃないか。
どこかにいい本ない?

102 :デフォルトの名無しさん:05/02/12 23:56:07
>>100
バイト雇ったらどうか?
コンピュータよりずっとまともな処理が期待できると思うが。

103 :デフォルトの名無しさん:05/02/14 14:39:43
奴隷やとったらどうだ?
コンバインよりずっとまともな農作業が期待できると思うが。

104 :デフォルトの名無しさん:05/02/15 07:12:54
自然言語処理に向いてるプログラミング言語って、
やっぱりCですか?

半期javaやってたんだけども、Cやり直すかなぁ…
勝手に思いついたアルゴリズムで文章解析して、
データベースみたいなのを吐き出してまた使えるようなのを作りたいんですが(将来的に)

105 :デフォルトの名無しさん:05/02/15 07:18:50
>>104
Cはどちらかというと向いてないと思う。
文字列の塊を切った貼ったが楽にできる言語の方がいいんじゃないかな。
なわけでやっぱりLispとかかねえ。

106 :104:05/02/15 07:42:56
ありがとうございます。
Lispって、なんか、そっちへ行ったら帰ってこれなそうな印象が…(苦笑)

107 :デフォルトの名無しさん:05/02/15 08:38:50
>>106
Lispのテイストを味わったことないのなら、一度味わってみるべし。
それから留まるか帰ってくるか決めなされw

108 :デフォルトの名無しさん:05/02/15 09:04:30
>104 単純に向き不向きでいったら、断然Prologです。自然言語を
解析するために作られた言語ですから。ただ、左再帰問題というのが
あって、Prologの探索順序の関係で、
<< 文 とは 文 がきて その後に 助詞 と 述語がくる >>
というような定義をすると、最初の部分で、文とは文である、となって
再帰的述語の呼び出しが終了できなくなる。これさへなければ、
あっという間に、簡単な句構造解析くらいできてしまうのですが、
実際にはこれを回避するため一段と複雑なコードを書かなくてはならなくなる。
それでPrologなら圧倒的に有利とはいえませんね。

109 :デフォルトの名無しさん:05/02/15 09:16:24
大昔に一世を風靡した「電信八号」を作った偉い人のやってる
形態素解析、構文解析
http://www.web-tscom.co.jp/
たいして金になりそうもないし、ついていけねぇ(;´Д`)


110 :108:05/02/15 09:33:07
>108これさへなければ、あっという間に、簡単な句構造解析くらいできてしまうのですが、

これは形態素解析が終わってから後の話です。

111 :デフォルトの名無しさん:05/02/15 12:15:27
>>108
> 自然言語を
> 解析するために作られた言語ですから。

そんな話は初耳だな。

>>110
> >108これさへなければ、あっという間に、簡単な句構造解析くらいできてしまうのですが、
>
> これは形態素解析が終わってから後の話です。

自然言語のパーシングがそんな単純な再帰下降で済む話なわけねーじゃん。

112 :デフォルトの名無しさん:05/02/15 12:40:03
>111 Prologを作ったのはマルセイユ大学ですが、
これは自然言語を解析するツールとして作られました。
論理式をそのまま言語にしてみたらというアイデアではあったようですが
言語として設計されたわけではありません。
>自然言語のパーシングがそんな単純な再帰下降で済む話なわけねーじゃん。
完全性の問題を問われない程度のものなら、済むんじゃないですか。

113 :デフォルトの名無しさん:05/02/15 15:34:34
>>112
自然言語をパースするためではなくて、「自然言語処理」一般だろ。
まず専用のパーサで自然言語の文を術語論理に翻訳した上で、
その論理式を用いて知識推論をしようとした、じゃないのか?
自然言語の文を直接Prologでパースするなんて悪い冗談だ。


114 :デフォルトの名無しさん:05/02/15 15:39:30
>>104
> 自然言語処理に向いてるプログラミング言語って、
> やっぱりCですか?

NLP関連でpythonを使う人も多い。
有名なAI: Modern ApproachのPeter Norvigもpythonについて色々書いている。
http://www.norvig.com/

115 :デフォルトの名無しさん:05/02/15 15:48:49
1971-2年の話で、当時の学問的環境も想像し難いし、1973年に書かれた
仏語の論文も読んだことがないので、どういう意図だったかわからない。
ただ、「悪い冗談」であるかどうかも皆目判っていなかったのではないか?

116 :デフォルトの名無しさん:05/02/15 16:32:04
>>109 これはちょっとわからないな…

117 :デフォルトの名無しさん:05/02/15 16:35:59
>113
>まず専用のパーサで自然言語の文を術語論理に翻訳した上で、
そうそう。専用のパーサは無かったと思う。
マルセイユ版Prologが動いて、append/3が発見されるまで
3ヶ月かかったとのことで、今日のProlog観は全然通用しない。
少なくとも知識推論しようとしたなどということはなさそう。

118 :デフォルトの名無しさん:05/02/15 17:58:54
>>117
> 少なくとも知識推論しようとしたなどということはなさそう。

AlainやPhilippeが書いた最初のprologプログラムは人間の質問に答える自動
応答システムです。

119 :117:05/02/15 18:52:43
>118 それは知りませんでした。この件について全然知識が無いので
なにか資料等残っているならぜひ教えてください。

120 :デフォルトの名無しさん:05/02/15 19:21:39
「小論文、コンピューターで自動採点 入試センターが試作」
http://www.asahi.com/national/update/0215/019.html

これマジか?本当にこんなものがもう実用段階に入ってるのか?
だとしたら俺らがやろうとしてることって一体何なんだ?

121 :デフォルトの名無しさん:05/02/15 19:43:18
>>120
型にはまった人間ばかり評価されるのはなんだかなぁと思った

122 :デフォルトの名無しさん:05/02/15 19:59:26
>>120
採点が楽になるってだけの理由で採用するのはどうかと思うし、
どの程度の性能か具体的に示されていない所が疑問ではあるな。

同等の評価を受けた物であっても、大きく評価が変わるケースが1%でもあれば、それだけでは使い物にならないわけで・・

123 :デフォルトの名無しさん:05/02/16 09:00:57
>>119
ttp://www.lim.univ-mrs.fr/~colmer/ArchivesPublications/HistoireProlog/19november92.pdf

124 :デフォルトの名無しさん:05/02/16 11:09:42
自然言語をパースするためなら、Perlがいいねぇ。
正規表現は、最強。ライブラリも豊富で最初から自分で作る必要もない。


125 :デフォルトの名無しさん:05/02/16 11:21:16
>>104
Cで書いてあるエンジンって速さを優先してるからじゃない?
String Operationが優れていてそこそこOOPに対応してる言語なら
JavaでもPerlでも。Pythonはどうよ。
RegExpの使いやすさは結構重要かと。

126 :デフォルトの名無しさん:05/02/16 11:43:38
>>109 みたいな係り受けを分析するフリーのライブラリってないんですか教えてください。

127 :デフォルトの名無しさん:05/02/16 13:04:25
昔、C と Perl の正規表現速度対決のページを見た。
Perl の方が機能豊富なのに速かった気がするんだけど、どうなんだろう。
まぁ、ベンチマークなんてあてにはできないのだけど。


128 :デフォルトの名無しさん:05/02/16 13:07:47
>>126
KNPとかmsrlだろ。


129 :デフォルトの名無しさん:05/02/16 13:10:35
>>127
あなた、正規表現のエンジンがPerlで書いてあるわけじゃないんだから。
機能の豊富さとそのルールを使わないマッチングの速度も関係ないし。




130 :デフォルトの名無しさん:05/02/16 13:13:46
>>128 ありがとうございますぐぐります

131 :119:05/02/16 13:28:15
>123 ありがとうございました。

132 :デフォルトの名無しさん:05/02/16 18:32:08
ここは良スレですね

133 :デフォルトの名無しさん:05/02/16 19:38:16
>>117
> 3ヶ月かかったとのことで、今日のProlog観は全然通用しない。

この一連の流れは今のNLP観で言語選択する話だと思っていたのだが…


134 :デフォルトの名無しさん:05/02/16 20:31:56
>>124
>自然言語をパースするためなら、Perlがいいねぇ。
CPANから欧米語のTaggerモジュールが手に入る。
(ただし、あまり精度はよくない。)

http://search.cpan.org/~acoburn/Lingua-EN-Tagger-0.06/Tagger.pm

他のコンピュータ言語で、Tagger, Parserなどのライブラリー、モジュール
が無料で公開されているのはありますか?

135 :デフォルトの名無しさん:05/02/16 21:37:37
>>134
pythonのmonty taggerはちょっと遅いけど速度に厳しい用途でなければ
それほど問題ない。parserもいくつか見かけた。

136 :135:05/02/16 21:41:59
NLP Toolkit http://nltk.sourceforge.net/
Monty Tagger http://web.media.mit.edu/~hugo/montytagger/
MontyLingua http://web.media.mit.edu/~hugo/montylingua/index.html

137 :デフォルトの名無しさん:05/02/16 23:29:35
なんかよくわかんないけどリンク針

OpenNLP http://opennlp.sourceforge.net/
OpenNLP Maxent http://maxent.sourceforge.net/
Grok http://grok.sourceforge.net/
OpenNLP Leo http://leonlp.sourceforge.net/
OpenCCG, the OpenNLP CCG Library http://openccg.sourceforge.net/
nlpFarm http://nlpfarm.sourceforge.net/

138 :デフォルトの名無しさん:05/02/17 12:25:41
>133
> この一連の流れは今のNLP観で言語選択する話だと思っていたのだが…
117のここの部分は、Prologが最初は何の目的で作られたか。その時点で、
可能な技術はどんなものだったかという話に脱線していますね。

139 :デフォルトの名無しさん:05/02/17 20:57:44
>>138
今のNLP観で言語選択すると英語だよな。

140 :デフォルトの名無しさん:05/02/18 03:08:43
>>139
おじいちゃん、おむつからウンコがはみ出てますよ。

141 :デフォルトの名無しさん:05/02/18 22:41:52
正規表現エンジンってどうやって作るのかな?

142 :デフォルトの名無しさん:05/02/19 01:20:34
FAを作る。


143 :デフォルトの名無しさん:05/02/20 14:25:59
>>142
FAって単語が分かれば>>141は書き込まないと思われ。

144 :デフォルトの名無しさん:05/02/20 22:52:12
Football Assosiation

145 :デフォルトの名無しさん:05/02/21 02:49:23
Final Answer

146 :デフォルトの名無しさん:05/02/21 04:03:44
fuck anal

147 :デフォルトの名無しさん:05/02/21 17:18:49
作る話してるときにFAって単語がどうとか言い出すのはどうかと思う。

148 :デフォルトの名無しさん:05/02/23 13:53:29
Futtoboru Awaa

149 :デフォルトの名無しさん:05/02/23 14:27:38
FusiAnasan

150 :デフォルトの名無しさん:05/02/23 15:06:16
Finite Automaton(有限オートマトン)

151 :デフォルトの名無しさん:05/02/23 15:40:48
Flets ADSL

152 :デフォルトの名無しさん:05/02/24 10:52:17
Free Agent

153 :デフォルトの名無しさん:05/02/24 16:19:06
Fighting Arts

154 :デフォルトの名無しさん:05/02/28 12:44:17
Fujikofujio A

155 :M.B.:05/03/03 10:52:04
Java 使って、チャート法ベースの
形態素解析システム組んだのはいいが、
係り受けの処理とどうやって融合したらいいかよくわからん。
チャート法っつーのは本来構文解析によく使われる手法だっつーのだが、
日本語みたいなForth もどきの文法構造を持った言語だと、
BNF みたいな形での抽象的な構文法の記述がうまくいかん。
誰か解決策を知らないか?

156 :デフォルトの名無しさん:05/03/03 15:31:37
サーチクロスって,形態素解析してません,なんて書いてあったんだけど,
じゃ,どうやってインデックス作ってるんだろう.
N-gram じゃないだろうしなぁ.インデックスサイズから考えても.


157 :M.B.:05/03/03 19:33:04
>>156
解析精度が低くていいなら、手法はそれなりにあると思われ。
英文用のスペルチェッカーなんかはそうした経験則の集大成だし。
漢字以外の文字から漢字に変わる点でぶった切って、
切れたものの末尾から附属語らしき要素を取りつくしてくだけで、
インデックス用のキー文字列は作れるしね。
あとは検索用の文字列に同じ処理を施して、それをキーにして候補を
かき集めて、それからじっくりマッチするかどうかチェックしてけばいい。

158 :デフォルトの名無しさん:05/03/03 21:27:46
>>155
係り受けなんて品詞で辿れるもんじゃないの?
自分で文章組み立てる手順とか考えた事ある?
つーか何のためにチャート法にしたの?

159 :M.B.:05/03/03 21:53:32
> 係り受けなんて品詞で辿れるもんじゃないの?
日本語だと省略が多いもんだから、
「嬉しいです」の「連体形+用言(助動詞)」みたいに、
ある程度長いスパンで見ないと係り受けの関係が見えないケースが多いのよ。
だから、体言ごとに格を推定して、動詞のほうから必要な格を割り出して、
余ってる体言が出ないようにするとかいった手続きが、
係り受けの推定には必要なわけ。
> つーか何のためにチャート法にしたの?
かな漢字変換もできる双方向の解析システム作ってたら、
結果的にそうなっちゃった。
「はくさいやだいこんなどのやさいが」は、切り方によって
「白砂 嫌だ こんな どの 野菜が」みたいな
いろんな屑候補が出てくるのだが、これをバックトラックで処理してると
同じ処理を何度もやることになって具合が悪い。
チャート法なら同じ部分の解析は一度しかされないし、
見込みのありそうな候補に絞って探索するとかいった制御も楽。

160 :デフォルトの名無しさん:05/03/04 12:20:33
日本語XLEは?

161 :M.B.:05/03/04 16:25:06
技法っつーか解析戦術レベルでは有効だろうし、
チャート法に代表される、並列処理にもってきやすい技法とも
併用可能なので、実用化っつー部分では要チェックと思われ。
ただ、「意味に即した解析」をうまく取り込むには、
職人芸的な技巧が要求されるので、「機械翻訳の質を上げる」みたいな
意味に踏み込んだ処理をやろうとすると、使いこなせるのは
ごく一部の特殊な才能を持った人なんじゃないかなぁ、と思う。
本当にできる人は、かな漢字変換に使われる「接続テーブル法」とかの
制約の中でも、意味処理に近いことをやってたしね。

162 :デフォルトの名無しさん:05/03/05 13:37:38
>>155
補強項処理を追加したら?
つまり文法記述中にJAVAのプログラムを記述する。
補強項つきの文法をいったんJAVAプログラムに落とすために、コンパイラコンパイラを
作る必要があるが、たいした手間ではないでしょう。
チャートパーサは、ちょっと変更すれば、そのまま使えるはず。


163 :デフォルトの名無しさん:05/03/05 13:44:33
KAKASIがやってる処理ってこういうの?

お?[亜-Kア-ヶー -◯Α-ωА-я0-9a-zA-Z]+[あ-んー]*[!?!?。、]?
|
[あ-んア-ヶー]+[!?!?。、]?


164 :デフォルトの名無しさん:05/03/05 15:56:11
人工無能スレってないの?
昔あったような・・・

165 :デフォルトの名無しさん:05/03/05 16:31:33
日本語解析って大変だよね。
わりに合わない気がするし。
文字コードの問題もあるし。
これが必ず正しい!って毎回答えが決まるわけでもないし。

おまえら形態素解析して何に使ってますか?

166 :デフォルトの名無しさん:05/03/05 16:41:20
>>165 サイトの全文検索

167 :M.B.:05/03/05 20:52:53
>>165
聴覚障害者や外国人向けの、漢字かな交じり文の読解支援。
読みがわからんと国語辞典が引けんので、
漢和辞典を引くしかなく、けっこうツラい。
「冷たい」と「冷える」、「下ろす」と「下がる」、
「生やす」と「生む」等、「漢和辞典引いて
読みを調べて国語辞典引いて活用形調べて
どれがマッチするか確認して……」とかいった手続きが
必要な語はけっこうある。それ以外にも、
「入れない」がイレナイかハイレナイか、「行った」が
イッタかオコナッタかわからないとかいった問題もある。
辞書引きの自動化だけでも、助かる人はけっこういる。

168 :デフォルトの名無しさん:05/03/06 00:00:40
マルコフ連鎖で前後関係の統計をとればほとんどいけると思われます

169 :デフォルトの名無しさん:05/03/06 06:14:22
マルコフ連鎖厨出現
このスレの運命やいかに?!

170 :M.B.:05/03/06 07:40:32
>>162
いまあるシステム自体がコンパイラ・コンパイラに近いので、
C 言語のインライン・アセンブラとかJava のJSP みたいな方法で
実装はできそうだな。
考えてみる。サンクスコ。

171 :デフォルトの名無しさん:05/03/06 12:11:17
マールーコーフ!
マールーコーフ!
マールーコーフ!
マールーコーフ!
ハイ!fgg'いつもやるのは緑の積分!


172 :デフォルトの名無しさん:05/03/07 04:07:36
http://www.antlr.org/



36 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.00 2017/10/04 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)