第6回WI2研究会報告

2015年6月23日

2015年6月13日(土)・14日(日)に,大阪大学(豊中キャンパス)にて第6回WI2研究会を開催致しました.一般発表は,ロング発表・ショート発表合わせて16件の発表がありました.

SNS分析、行動分析、情報可視化・分析、機械学習と応用、トピック分析などでした.また,招待講演では,加藤 誠先生(京都大学)より「情報検索におけるユーザモデル」と,John Britton氏(GitHub)より「Discovering the GitHub collaboration platform」をご講演いただきました.参加者数は87人でした.懇親会は,本格的なネパール料理店で行いました.

→プログラム →特別講演 →表彰 →副座長報告 →学生参加報告 →運営委員会

日時・会場

日時: 2015年6月13日(土)10:30~17:20
2015年6月14日(日)10:00~16:15
会場: 大阪大学豊中キャンパス 基礎工学部 国際棟シグマホール
(〒560-8531 大阪府豊中市待兼山町 1-3)
http://www.es.osaka-u.ac.jp/ja/access.html

アルバム


一般発表の様子です

一般発表の様子です

一般発表の様子です

質疑応答の様子です

一般発表のスライドです

一般講演で登場した解説委員の皆様です

加藤誠氏の招待講演です

John Britton氏の招待講演です

懇親会の様子です

懇親会の様子です

懇親会の様子です

懇親会の様子です

優秀研究賞の発表です

萌芽研究賞の表彰です

萌芽研究賞受賞者の表彰です

学生奨励賞の表彰です

プログラム

■6月13日(土)(受付 10:00~)
10:30-10:40 開会の挨拶
10:40-12:00 セッション1: SNS分析
座長: 熊本 忠彦 (千葉工業大学) 副座長: 奥 健太 (立命館大学)
(ロング発表)
1.マイクロブログデータによる顧客理解の試み ?クラウドソーシングの適用による住まい探し行動コーパスの構築?
  ○清田 陽司(株式会社ネクスト), 楡井 泰行, 篠田 孝祐(電気通信大学), 諏訪 博彦(奈良先端科学技術大学院大学), 栗原 聡(電気通信大学)
2.複合施設における各フロアに関するツイート分類の検討
  ○☆安井 豪基, 王 元元, 河合 由起子, 秋山 豊和(京都産業大学), 角谷 和俊(関西学院大学)
(ショート発表)
3.ソーシャルメディアにおける嫉妬心と行動の相関に関する基礎的調査
  ○☆吉田 翔吾郎, 土方 嘉徳(大阪大学)
12:00-13:30 昼休憩
13:30-14:30 招待講演
司会:土方 嘉徳(大阪大学)
「情報検索におけるユーザモデル」
  ○加藤 誠(京都大学)
14:30-14:45 休憩
14:45-15:45 セッション2: 行動分析
座長: 横山 昌平 (静岡大学) 副座長: 河合 由起子 (京都産業大学)
(ロング発表)
4.移動速度条件を考慮したジオタグ付きツイートからの交通路の抽出と分析
  ○☆谷 直樹, 風間 一洋(和歌山大学), 榊 剛史(株式会社ホットリンク), 吉田 光男(豊橋技術科学大学)
5.ユーザの関心に応じたマイクロブログからの実世界観測情報の抽出
  ○☆吉武 真人, 新田 直子, 馬場口 登(大阪大学)
15:45-16:00 休憩
16:00-17:20 セッション3: 情報可視化・分析
座長: 井口 誠(Kii) 副座長: 湯本 高行(兵庫県立大学)
(ロング発表)
6.時空間動向情報を対象とした探索的データ分析のための可視化インタフェースの提案
  ○☆内藤 峻 松下 光範(関西大学)
7.実時間と動画時間から抽出した面白い動画コメント100連発
  ○土方 嘉徳, 早川 卓弥(大阪大学)
(ショート発表)
8.ソーシャルメディア上に投影された情報の偏在性及び遍在性の可視化
  ○☆遠山由自(静岡大学)、廣田雅春(大分工業高専)、石川博(首都大学東京)、横山昌平(静岡大学)
18:30-21:30 懇親会
■6/14(日) (9:40~受付)
10:00-11:40 セッション4: トピック分析
座長: 松下 光範 (関西大学) 副座長: 杉原 太郎(岡山大学)
(ロング発表)
9.Webニュースの閲覧記事に対する対立記事抽出手法
  ○☆大原 正章, 真下 遼, 灘本 明代(甲南大学)
10.観光地のレビューからの耳より情報抽出手法
  ○☆阪井 奎伍, 灘本 明代(甲南大学)
(ショート発表)
11.ストーリー文書内のネタバレの記述に関する基礎的調査
  ○☆前田 恭佑, 土方 嘉徳(大阪大学), 中村聡史(明治大学/JST CREST)
12.語間の関連性を考慮したサブトピック抽出法に関する一検討
  ○☆萩原 一貴, 波多野 賢治(同志社大学)
11:40-13:10 昼休憩
13:10-14:10 招待講演2
司会:松下 光範 (関西大学)
「Discovering the GitHub collaboration platform」
  ○ John Britton(GitHub Inc.)
14:10-14:25 休憩
15:30-17:40 セッション6: 機械学習と応用
座長: 大塚 真吾 (神奈川工科大学) 副座長: 笹嶋 宗彦 (大阪大学)
(ロング発表)
13.道路地図および航空写真の特徴量を用いたドライブ風景の推定
  ○奥 健太, 山西 良典, 松村 耕平, 川越 恭二(立命館大学)
14.数式曖昧表記変換型数式入力の機械学習による数式予測と精度
  ○福井 哲夫(武庫川女子大学)
(ショート発表)
15.オノマトペに着目した日中言語翻訳に関する研究
  ○☆羅 文, 桝井 文人, Michal Ptaszynski(北見工業大学)
16.オープンソースによるビッグデータ分析の可能性
  ○足立 悠, 北島 聡(株式会社KSKアナリティクス)
16:05-16:15 表彰式・クロージング

招待講演1:「情報検索におけるユーザモデル」

司会: 土方嘉徳(大阪大学)
講演者: 加藤 誠(京都大学)
講演概要: 情報検索を行うユーザのモデルは,ランキング学習や評価指標,対話的情報検索にて用いられ,現在もなお情報検索において中心的なトピックとなっている.本講演では,検索ユーザの理解とそのシステムへの応用という2つの側面から,情報検索におけるユーザモデルを紹介する.

招待講演2:「Discovering the GitHub collaboration platform」

司会: 松下 光範(関西大学)
講演者: John Britton(GitHub Inc.)
講演概要: John Britton will help you grasp the concepts of distributed version control and effectively begin using the GitHub suite of tools. Explore both Git concepts and typical GitHub workflows through practical demonstrations.

表彰

WI2研究会では,出席したWI2委員全員により,全ての発表の聴講と評価を行っております.今回,各賞を受賞された研究は以下のようになります.

優秀研究賞
道路地図および航空写真の特徴量を用いたドライブ風景の推定
 奥 健太, 山西 良典, 松村 耕平, 川越 恭二(立命館大学)

萌芽研究賞
ソーシャルメディア上に投影された情報の偏在性及び遍在性の可視化
 遠山由自(静岡大学)、廣田雅春(大分工業高専)、石川博(首都大学東京)、横山昌平(静岡大学)
ストーリー文書内のネタバレの記述に関する基礎的調査
 前田 恭佑, 土方 嘉徳(大阪大学), 中村聡史(明治大学/JST CREST)

学生奨励賞
ソーシャルメディアにおける嫉妬心と行動の相関に関する基礎的調査
 吉田 翔吾郎, 土方 嘉徳(大阪大学)

副座長報告

セッション1:SNS分析
副座長:奥 健太(立命館大学)
報告内容:
セッション1(発表件数:3)では,SNS分析に関する発表が3件あった.
 1件目の発表は,住まい探しユーザのニーズの分析に関する研究発表であった.住まい探しに関連するツイートだけを抽出し,クラウドソーシングによりデータ判別を行っている.作業者約400名から得られた286設問に関するツイートから,動機,情報収集,物件見学,契約のフェーズに分類し,各フェーズについて分析した結果が報告された.会場からは,対象をツイートに限定することで,ランダムサンプリングと比べると偏りがあるのでは,という指摘があった.それに対して,偏りを踏まえて考察する必要があることと,一人一人のストーリに着目する方が有用な知見が得られやすい,という回答があった.
 2件目の発表は,TwitterとWebの異種メディア横断型コミュニケーションを想定し,複合施設内のフロアごとのツイートの分類を目的とした研究発表であった.データとして,Webページのスニペットから抽出した場所名に対応した緯度・経度を抽出し,その緯度・経度を中心にした半径dメートル以内のツイートを取得している.LUCUAを対象にし,フロアをクラスとした12クラスの分類問題として検証している.会場からは,精度向上には,クリスマスなどの特定の語句や時間情報,ユーザプロファイルなど,他に有用な特徴量を選択すると良い,とのコメントがあった.また,LUCUAだと若者が多いので有効に機能しそうではあるが,年齢層が異なる阪神百貨店などでも通用するのか,という意見があった.どのようなビルであれば有効であるか,また有効でないビルではどのように対応するか検討があると良い,とのコメントがあった.
 3件目の発表は,嫉妬心をユーザ行動から予測する方法に関する研究発表であった.SNSにおけるソーシャル疲れに問題意識をおき,嫉妬を推測し,自覚を促すことが重要という背景を踏まえての提案であった.特に嫉妬を感じる対象はメディアによって異なる点を指摘している.Twitterでは日々の些細な行動の報告に対し,Facebookにおいては特別なイベントの報告に対し,嫉妬を抱きやすいという傾向が報告された.会場からは,嫉妬に関しては,2chの方が現れやすいので,そちらを分析した方が良いのでは,というコメントがあった.

セッション2: : 行動分析
副座長: 河合 由起子 (京都産業大学)
報告内容
セッション2では,2件のロング発表があった.
 1件目の発表では,一定条件を満たすツイート集合からそれらユーザが共通で利用した移動経路を推定する手法に関する研究発表であった.連続ツイートから移動速度と移動距離を抽出し,Hough変換による近似直線抽出を行う手法で,移動速度条件を考慮することで異なる交通機関の交通路の抽出を実現している.会場からは,主に交通機関の交通路抽出結果をどのように応用し有効性を示すかといった質問が多かった.応用として,災害時の交通路抽出の場合,リアルタイム性や,予測に関する質問もあった.また,実験に関する質問として,速度の範囲設定(新幹線の区間による速度の違いを考慮してるか否か),トンネルの影響(ツイートが発信されてない)があった.
 2件目の発表では,ツイートから実世界情報を抽出する試みに関する研究発表であった.具体的には,ユーザの関心に合致した観測情報はクエリと意味的関連度の高い単語を、合致しない観測情報は関連度の低い単語を多く含むと考え、マイクロブログにて使用される単語間の意味的関連度を、現在までの投稿における単語の共起関係から逐次的に算出し、ユーザからクエリが与えられた時点で、各投稿に含まれる単語のクエリに対する関連度分布を抽出し、実世界観測情報として抽出する.会場からは,実験検証に関する質問が多く,botツイートを除いた場合の検証や,長期的な共起より短期的な共起の方が特異な共起語を抽出できそうだが組み合わせの検証はどうか,他の手法との検証に関して質問があった.発表者からはbotが影響し精度が向上したこと,その時何が起こっているというより、その検索キーワードに関連するキーワード抽出精度を今回は検証目的としたこと,他手法の検証は行ってないことが報告された.また,評価において正当性とは何か?リアルタイム性は今後どうするか?センサデータに対する考慮に関するコメントもあった.

セッション3: 情報可視化・分析
副座長:湯本高行(兵庫県立大学)
報告内容
セッション3(発表数:3)では,2件のロング発表と1件のショート発表があった.
 1件目の発表では,エボラ出血熱の感染者数などの時系列データを折れ線グラフで表現し,ニュース記事および地図と対応づけて表示するインタフェースについて報告があった.これに対して,会場からは,データの対応づけの自動化の有無についての質問があり,できるとは思うが現状では行っていないとの回答があった.また,時系列データの変化の理由を知るための追加機能についてのコメントがあった.
 2件目の発表では,ニコニコ動画のコメントの時間的な分布の変化のみから面白いコメントを抽出する手法の提案と実際に抽出した面白いコメントについて解説員(学生)から解説が行われた.質疑では,「ww」などのテキスト情報を使った方がよいのではないかとの指摘があったが,「ww」だと動画自体が面白かった場合の反応が取れてしまうとの回答があった.また,面白さというよりは,コミュニティ内のジャーゴンや価値観を抽出する研究なのではないかとの指摘があった.
 3件目の発表は,ジオタグつきツイートを分析し,クエリと共起しやすく,一定数以上の都道府県からのツイートに含まれる語を局所的単語として抽出する研究であり,局所的単語を地図上に可視化するシステムのデモが行われた.質疑では,ご当地商品などのマーケティング分野だけではなく,文化人類学的な分析などへ応用してはどうかというコメントがあった.本発表は,開発したシステムのツールとしての有用性と将来性が評価され,萌芽研究賞に選ばれた.

セッション4:トピック分析
副座長: 杉原 太郎(岡山大学)
報告内容:
セッション4では、ロング発表2件とショート発表2件があった。
 1件目は,Webニュース記事を対立的な記事を提示することでより大きな視点から理解することを目指した手法についての発表であった。理解を促進するために、最終的にユーザに提示する情報は現行の1つだけではなく、比較可能なように複数提示すべきではないか。対立記事を出力するために抽出される対立語をWikipediaを利用しているが、そこで考えられている上位下位概念は、今回の研究で考えている上位下位とは異なるのではないか。ニュースの出現頻度で重み付けをするほうが良いのではないか。ソーシャルメディアに居る人間の力を利用するほうが、テキスト処理のみに頼るより優勢と考えられるので、参考にしてはどうかといった質疑があった。
 2件目の発表は、観光地のレビューをキーワードにもとづきクラスタリングし、ユーザにとって有用な情報とレアな情報を耳寄り情報として提示する手法が提案された。有用な情報とレアな情報は独立なので、別々に分析をして、その結果を耳寄りな情報として提示したほうが評価がしやすいのではないか。ユーザは、レアな情報のレアさをどのように判断できるのか。実験参加者が対象となる観光地に行った経験があるかどうかは、結果に影響すると考えられる。そのような属性情報は収集したか。有用な情報のカテゴリのなかに、自動分類が難しい物が見受けられるので工夫が必要ではないかといった質問やコメントが寄せられた。
 3件目の発表は、ストーリー展開とその内容に関する記述がネタバレに与える影響を明らかにするため評価者に複数の物語を閲覧・視聴させ,正解データ中の記述の分布について調べたものであったという発表がなされた。ネタバレによって失われる楽しみがどのようなものかについて知見があるか。ネタバレ研究を転用先として小説の要約があると思うが、将来的にはこの研究をどのように応用しようとしているのか。モダリティ的表現も加味するとネタバレが推測しやすくなるのでは。ネタバレのフラグを立てるような表現を利用できないかといった、応用性や将来性についての質問・コメントがなされた。本発表は萌芽研究賞を受賞した。
 4件目の発表は、クエリと関連のあるサブトピックを抽出するためのクラスタリングについての発表であった。先行研究との関係についていくつかの質問があった後、研究目的が意図を求めることなのか、文書のクラスタリングをすることなのか、と質問があった。さらに、サブトピックの粒度の大きさの部分に新規性が求められるのではないかといったコメントもあった。

セッション5: 機械学習と応用
副座長:笹嶋宗彦(大阪大学/YMP-Mundus)
報告内容 
 1件目の発表は,風景アウェアドライブルート推薦システムの研究報告であった.OpenStreetMapプロジェクトにおけるMapに付与するタグには「田園風景」など風景に関するものが無く,人手によるタグ付けは大変なので,これを自動化することが目的.会場から,JAXAで公開されている土地被覆分類図を利用すれば風景の分類が既にできているのではないかとのコメントがあった.また会場から,道路地図の画像利用や,他の画像処理研究との差別化に関する質問やコメントがあった.その他,風景の分類の仕方,時間と共に変わる風景の扱い,風景ごとの判定精度の違いなどに関する質問があった.
 2件目は,機械学習による数式曖昧標記変換型の数式入力方式に関する報告であった.具体的には,曖昧な標記の数式(を想定した文字列表現)に対する,式の変換候補を表示し,中高生の入力者に選択させるインタフェースに関する研究報告.会場から,本研究の参考とされた数式の構造入力法は,実装コストが高く,提案方法は実装コストが低そうなので,それをアピールすれば良いのではないかとのコメントがあった.また,会場から,省略標記をどれくらい学生が覚えると提案システムを使えるようになるのかと質問があり,現状,5分程度の説明で学生が使い始めることが出来ているとのことであった.その他,理系では無い学生が数式の言葉の表現を理解して入力できるのか,評価実験の結果をもう少し詳しく説明してほしいなどの質問があった.
 3件目はオノマトペに注目した日中翻訳に関する研究報告.日本の漫画を中国語に翻訳しても,オノマトペが上手く訳されず原作のニュアンスが伝わらないため,その解決を目的とする.会場から,比喩文と解釈文の違いについての確認質問があった.比喩文はオノマトペを含む文,解釈文は,オノマトペを含まないで説明する文であるとの説明がされ,今回の実験は日本語のできない人が解釈できるかどうかを実験したかったので,比喩文を見せずに解釈文だけを中国人に見せて行ったとのことであった.その他,同じ分野の研究者から,オノマトペには3種類あり擬音語はある程度他国の人にも理解されたが,その他の擬態語などは伝わりにくい傾向があったとのコメントがあった.また,これら3種類のオノマトペを分けて実験すれば結果が良くなるのではないかとのコメントがあった.
 4件目は,オープンソースソフトウェアによるビッグデータ分析の各種ツール動向に関する報告であった.会場から,NYSOLの速度優位性について質問があった.100万レコードのデータに対するソーティングや抽出などの処理について,R,SQLなど4,5種類の処理系に対して優位な処理結果であったとの回答がされた.会場から,大阪都構想の時期のキーワード抽出の実験と,関連するキーワードグラフからの極大クリーク列挙アルゴリズムについて質問があり,補足説明が行われた.最後に会場から,オープンソースソフトウェアの実装言語について質問があり,ほとんどRubyで,Pythonへ移行しつつあるとの回答がされた.

運営委員会

実行統括担当:笹嶋 宗彦 (ワイエムピー・ムンダス K-Factoryカンパニー)
プログラム担当:河合由起子(京都産業大学)
ローカル担当:土方 嘉徳(大阪大学)
映像配信担当:山本 岳洋(京都大学)