映像コンテンツのストリーミングといえばNetflix、現在4400万人のユーザー(有料会員)がいる成熟したサービスですが、現在もすごいペースで成長しています。 Netflix、第4四半期決算で大幅増益--加入者数は400万人増 - CNET Japan 利用できる地域は限られま…
目的 検索用サーバーとして最近注目されているElasticsearchですが、ついに1.0 RC1がリリースされたそうです。 Googleトレンドを見ても、この分野で先行するApache Solrに迫る勢いを感じます。 そういうわけで私もElasticsearchについて興味を持って調べてみ…
ニコニコデータセットっていう800万動画のメタデータと25億件くらいのコメントをJSONで提供しているデータセットがあり、それをindexingする中でちょっと大きめのデータをどう扱うかについて発表しました。 ニコニコ動画を検索可能にしてみよう from genta k…
Solr勉強会でElasticsearchを発表(ゴリ押し)してきました 資料: solrとelasticsearchの比較 // Speaker DeckサンプルにつかったRailsのコード:https://github.com/penguinco/ld_gourmet_search 文章の追加から、検索まで書いたのは100行無いと思いますの…
モーショノロジー#1で発表してきました http://atnd.org/events/23608 資料: http://www.slideshare.net/penguinana/solr-11287004 Solrを使ったレシピ検索のプロトタイピング View more presentations from genta kaneyama 他の発表の資料は順次以下から見…
9月12日にECナビにて第6回Solr勉強会がありました。事例紹介に「Solr@cookpad」という発表で参加させて頂いた時の資料を公開しておきます。 みなさんの発表が面白くてすごく勉強になりました。勉強会の様子はこちらに詳細に書かれています。 http://johtani.…
久しぶりにTwitter日本語圏のダンプを公開したいと思います。 2010年12月31日から2011年1月1日のつぶやきのMySQLダンプです(load dataで取り込むタイプ)yatsの収集対象は 公開ユーザー状態でつぶやかれたもののうち 過去3週間以内につぶやいたユーザーからの…
twitter日本語ユーザー100万人分のフォローイングとプロフィールのダンプを作成しました。 レコメンデーションの実験や分析に使えるかもしれません。 プロフィール: 108万人分のスクリーンネームや自己紹介文 フォローイング: 103万人分のフォローイング先…
久しぶりにTwitter日本語圏のダンプを公開したいと思います。 9/1-9/16の1.77億つぶやきのMySQLダンプです(load dataで取り込むタイプ)yatsの収集対象は 公開ユーザー状態でつぶやかれたもののうち 過去3週間以内につぶやいたユーザーからのもの、 累積200〜…
毎回勉強になります。前回ご挨拶させていただいた人の顔を忘れていて帰り道に思い出したり。名刺忘れるのも毎回やないか… あと、すごい豪雨だった。内容はスライドを公開されている方が多いので、なんとなく心に掛かったところだけメモ 株式会社ロンウイット…
勉強会のなかみはid:hamadakoichiさんががっつりまとめてださっていますのでそちらをご参照ください。 第1回 自然言語処理勉強会@東京 に参加してきた この勉強会は@nokunoさんが発起人と思いますが以下のような範囲(形式)を対象としております。 輪読形…
先週アメリカで開催されたTwitterのカンファレンスchirpで、アクセスの75%は外部からくるという発表がありました。 何のことかわからなかったのですが、気になったのでクライアントTOP100を集計*1してみたところ、実際そうなってました。 純粋にブラウザから…
3月11日にECナビにて第2回Solr勉強会がありました。事例紹介に「Solr@twitter検索」という発表で参加させて頂いた時の資料を公開しておきます。すごく勉強になりました。皆さんの発表の内容とか感想はのちほど追記…twitter/#SolrJP,yats/#SolrJP スライド:S…
7月21日にECナビにてSolr勉強会がありました。LTに「Solr@twitter検索」という発表で参加させて頂いた時の資料を公開しておきます。すごく勉強になりました。当日名刺をもってなかったり、遅刻してきたりいろいろご迷惑おかけしてしまって申し訳なかったです…
MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてく…
twitter検索はpublic_timelineをスクレイピングする方法でポストを収集していました。 これはうまくいっていたのですが3月のはじめにAPIによるアクセスに続いて通常ページもキャッシュされるようになり、ポストの取得がとびとびになってしまいました。影響は…
ゼミ用資料 関係のない方はスルーしてください
ゼミ用資料 関係のない方はスルーしてください
PFI手法による官民共同の新たな刑務所の整備についてのメモ: PFI手法:Private Finance Initiative 公共施設の建設、維持管理、運営等を民間の資金、経営能力及び技術的能力を活用して行う手法。事業主体は民間でもその執行にかかる最終責任はあくまで行政…
Amazonになか見!検索という機能がある。対象書籍の全文検索が可能で、うまく使えば非常に便利な機能。しかし、この検索にクエリーを出し、そこから得られた結果ピースをクエリーに反映させることで全文を取得し、検索結果を統合すると書籍が再構築できてし…