著者
池田 和史 柳原 正 松本 一則 滝嶋 康弘
出版者
FIT(電子情報通信学会・情報処理学会)運営委員会
雑誌
情報科学技術フォーラム講演論文集
巻号頁・発行日
vol.8, no.2, pp.13-18, 2009-08-20

ブログ上の文書には口語的な表現や特有の表記などのくだけた表現が多数含まれるため、一般の形態素解析器を用いても十分な解析精度を得ることはできない。くだけた表現は人手により辞書登録されることが一般的であるが、人的コストの大きさや専門的な知識を必要とすることが課題である。本稿ではくだけた表現を文語的な表現に修正するための教師なし学習手法を提案する。提案手法ではくだけた表現の修正候補文字列をくだけた表現の少ない文書から自動的に検索し、修正ルールを生成する。生成した多数の修正ルールから文脈に適した修正ルールを選択的に適用するために、検索結果における修正候補文字列の出現頻度、修正前後の文字列間における編集距離、修正前後の文の形態素解析結果の比較、を用いて修正ルールをスコアリングする手法を合わせて提案する。提案手法を実装し、従来手法との性能比較評価実験を行った。各手法を利用したときの未知語の出現率や文節区切りの正確さ、修正前後の文の意味変化を定量的に評価した。提案手法では従来手法と同程度の文節区切りの正確さを維持しながら、対象文書の未知語出現数を30.3%減少させることに成功した。これは従来手法における未知語減少数の2倍以上である。
著者
ウスマン ウメルジアン 木村 哲也 山田 耕一 猿渡 隼斗
出版者
FIT(電子情報通信学会・情報処理学会)運営委員会
雑誌
情報科学技術フォーラム講演論文集
巻号頁・発行日
vol.9, no.2, pp.267-274, 2010-08-20

SMU文字は表音文字"Phonogram"で構成されている文字である。中央アジアに住んでいるソグド人、マニ人、ウイグル人が使っていた文字はソグド、マニ、ウイグル"Sogd, Manichaean, Uyghur,(SMU)"文字と呼ばれ、現在のそれらとは若干異なっている。SMU文字は古代と中期に使われていた文字で、現在使われていないという状況にある。SMU文字で書かれた文献作品は、現在各国の博物館と大学に所蔵されている。古代と中期のチュルク語とアルタイ諸語(SMU語)とそれらの文字の研究者の研究を助けるために、古代と中期SMU文献作品と様々な写本資料をデジタルテキストとしてデジタルアーカイビング"Digital archiving'が必要である。SMU単語は母音、子音、分音符号の組み合わせで形成したグリフと複雑なリガチャーから構成されている。本研究では、紀元前2世紀から紀元後11世紀までに右から左への横書きで書かれている古代と中期のSMU写本資料(図4参照)を使用して分音符号、グリフと複雑なリガチャーの位置の設計を行った。SMU文字コードの実装と開発の際の難しさは分音符号、グリフと複雑なリガチャーの形成である。本稿では、SMU語のデジタルテキスト処理の基礎である分音符号、グリフ、複雑なリガチャー形成の設計を提示する。
著者
近藤 拓也 高橋 修
出版者
FIT(電子情報通信学会・情報処理学会)運営委員会
雑誌
情報科学技術フォーラム講演論文集
巻号頁・発行日
vol.7, no.4, pp.261-262, 2008-08-20

近年,PC・携帯等からのWeb閲覧増加に伴い,SNSを利用した交流が盛んに行われている.現状,同様の趣向を持つSNS会員との主な交流はコミュニティを利用した情報交換となるが,会員間で現実世界の行動を共にするに至るには,相手の信頼度や相性を確認するための詳細な情報交換や現実世界での交流が必要となるため,負担の大きい本手続きの効率化が望まれる.本稿では,コミュニティへのアドオン機能として,過去の現実世界での行動に基づいた相手の信頼度および相性を数値化する方式を提案する.近年増加傾向にあるフラットシェア(共同生活)を例に,過去のシェア経験やシェアメイトからの評判による信頼値の付与,住居環境等の趣向の相性を数値化する方式について述べる.