<?xml version="1.0" encoding="utf-8"?>
<?xml-stylesheet href="../../../../../css/rss/feedRss1.xsl" media="screen" type="text/xsl"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns="http://purl.org/rss/1.0/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xml:lang="ja">  
  <channel rdf:about="http://rssblog.ameba.jp/th0083/rss.html"> 
    <title>JAVAでデータマイング！</title>  
    <link>http://ameblo.jp/th0083/</link>  
    <description>『情報工学の難しいそうなアルゴリズムをJAVAで実装して、ひたすらその結果を公開する』ブログになる予定。</description>  
    <dc:language>ja-jp</dc:language>  
    <items> 
      <rdf:Seq> 
        <rdf:li rdf:resource="http://ameblo.jp/th0083/entry-10667248069.html"/>  
        <rdf:li rdf:resource="http://ameblo.jp/th0083/entry-10491459250.html"/>  
        <rdf:li rdf:resource="http://ameblo.jp/th0083/entry-10483740192.html"/>  
        <rdf:li rdf:resource="http://ameblo.jp/th0083/entry-10392171809.html"/>  
        <rdf:li rdf:resource="http://ameblo.jp/th0083/entry-10354407558.html"/>  
        <rdf:li rdf:resource="http://ameblo.jp/th0083/entry-10284514382.html"/>  
        <rdf:li rdf:resource="http://ameblo.jp/th0083/entry-10277338246.html"/>  
        <rdf:li rdf:resource="http://ameblo.jp/th0083/entry-10276664565.html"/>  
        <rdf:li rdf:resource="http://ameblo.jp/th0083/entry-10273236771.html"/>  
        <rdf:li rdf:resource="http://ameblo.jp/th0083/entry-10272072125.html"/> 
      </rdf:Seq> 
    </items>  
    <atom:link xmlns:atom="http://www.w3.org/2005/Atom" rel="self" href="http://feedblog.ameba.jp/rss/ameblo/th0083" type="application/rss+xml"/>
  </channel>  
  <item rdf:about="http://ameblo.jp/th0083/entry-10667248069.html"> 
    <title>SIGStartups2010</title>  
    <link>http://ameblo.jp/th0083/entry-10667248069.html</link>  
    <description><![CDATA[<p>先日のことになりますが、会社主催の 『SIG STARTUPS 2010』というエンジニア向けの勉強会で発表してきましたので、その時の資料を投下しておきます。20100930sig startups learnView more presentations from JAVA DM.ちなみに発表では殆ど触れなかったのですが、今回の解析の肝はHadoopでSVMとかいう話ではなくて、データの作り方の方が全然大事だったりします。完全自動？でデータを作ることのよさは、カテゴリの時系列な変化をキャッチア
</p>]]></description>  
    <dc:date>2010-10-04T17:40:45+09:00</dc:date> 
  </item>  
  <item rdf:about="http://ameblo.jp/th0083/entry-10491459250.html"> 
    <title>整数列圧縮　その2　- NewPFD -</title>  
    <link>http://ameblo.jp/th0083/entry-10491459250.html</link>  
    <description>前回PForDelta(PFD)のアルゴリズムの検証やら何やらをやったのですが、今回はPForDeltaの発展版のNewPForDelta(NewPFD)を実装してみました。とりあえず、前回と同じ環境で、wikipedia日本語版でデータを圧縮して10回伸張した時の時間を測定してみたところ、結果は以下のような感じ。gap list までの復元速度で見ると、確かにPFDよりNewPFDの方が速いし、しかも圧縮率もPFDよりいい！( ちなみに伸張速度の単位はms、下にある括弧は M int/sec</description>  
    <dc:date>2010-03-26T01:06:51+09:00</dc:date> 
  </item>  
  <item rdf:about="http://ameblo.jp/th0083/entry-10483740192.html"> 
    <title>整数列圧縮　その一　― PForDelta、Simple9、VarByte ―</title>  
    <link>http://ameblo.jp/th0083/entry-10483740192.html</link>  
    <description>整数列圧縮っていうのは、いわゆるサーチエンジンの転置Index( Inverted Index )等の圧縮に使われるているアルゴリズムなんですが、 ―――　推薦エンジンのデータ構造も転置インデックスと似たようなモンなので、推薦エンジンにも使える</description>  
    <dc:date>2010-03-16T22:04:46+09:00</dc:date> 
  </item>  
  <item rdf:about="http://ameblo.jp/th0083/entry-10392171809.html"> 
    <title>当たり前ですけど、学習データって大事です。</title>  
    <link>http://ameblo.jp/th0083/entry-10392171809.html</link>  
    <description>最近仕事で spam 判別器なんての作成していたんですが、この spam の分類器を作成していて思ったことがあります。 自分も割とそうなのですが、いわゆる精度を上げるために、アルゴリズムに傾倒してしまうようなことが普通にあって、 ベイズがベイジアンネットになり、SVMになり、ＳＶＭ＋カーネルロジスティックのBoostingになり・・・って具合でどんどん難しいアカデミックなところを攻めてしまうわけですが、 しかしながら実際の所、純粋に精度を</description>  
    <dc:date>2009-11-19T20:57:19+09:00</dc:date> 
  </item>  
  <item rdf:about="http://ameblo.jp/th0083/entry-10354407558.html"> 
    <title>Naive Bayes　その一 - smoothing -</title>  
    <link>http://ameblo.jp/th0083/entry-10354407558.html</link>  
    <description>　テキストマイニングをやっていると、初期の頃は Naive Bayes とか使うと思うのですが、 まぁベイズの定理とかしばらく眺めてると、それなりに誰でも分かると思うんです。 一応オサライだけしとくと、 ベイズの定理 　　　　事後確率 = （　事前分布　×　尤度　） / 結果 で、実際に式書くと</description>  
    <dc:date>2009-10-01T00:36:51+09:00</dc:date> 
  </item>  
  <item rdf:about="http://ameblo.jp/th0083/entry-10284514382.html"> 
    <title>LSH その4　－pstableのサンプルコード－</title>  
    <link>http://ameblo.jp/th0083/entry-10284514382.html</link>  
    <description>休み中にLSHの実装を見直しました。 pstableの実装が、かなり雑だったのでパッケージの構造から大幅に改修しました。まだまだですね。。。 せっかくなのでp-stableのサンプルコード的なモノ(Mavenのテストコード)を書いてみました。 （以前書いたsimHashのテストコード も訂正しておきました。）</description>  
    <dc:date>2009-06-21T02:33:48+09:00</dc:date> 
  </item>  
  <item rdf:about="http://ameblo.jp/th0083/entry-10277338246.html"> 
    <title>階層的クラスタリング　その2　 －サンプルコード－</title>  
    <link>http://ameblo.jp/th0083/entry-10277338246.html</link>  
    <description>前回公開した階層的クラスタリングのライブラリ を使ったサンプルコードを書いて見ました。 よくある色のデンドグラムを作成するテストコードです。 こんな感じ。 package jp.ndca.toolkit.cluster.hierarchi</description>  
    <dc:date>2009-06-09T19:06:00+09:00</dc:date> 
  </item>  
  <item rdf:about="http://ameblo.jp/th0083/entry-10276664565.html"> 
    <title>階層的クラスタリング　その1　- ward法（キャッシュ有）の実装公開 -</title>  
    <link>http://ameblo.jp/th0083/entry-10276664565.html</link>  
    <description>階層的クラスタリングのコードをJavaで書いて見ました。 url ： hierarchiccluster svn : svn checkout http://hierarchiccluster.googlecode.com/svn/trunk/ hierarchiccluster-rea</description>  
    <dc:date>2009-06-08T18:17:31+09:00</dc:date> 
  </item>  
  <item rdf:about="http://ameblo.jp/th0083/entry-10273236771.html"> 
    <title>LSH　その3　- simHashの類似度と精度 -</title>  
    <link>http://ameblo.jp/th0083/entry-10273236771.html</link>  
    <description>LSHを使う上で気になる点の一つとして、精度（再現率）と類似度の関係があげられると思います。 LSHは、Hash関数とアルゴリズムのロジックの力で確率的に似ているデータを高速に探し出すのですが、 それはあくまで " 確率的 "な探索であって、元々似ているデータのうちいくつかは検索結果から漏れてしまいますし、そも</description>  
    <dc:date>2009-06-03T10:33:29+09:00</dc:date> 
  </item>  
  <item rdf:about="http://ameblo.jp/th0083/entry-10272072125.html"> 
    <title>LSH その2 -lshの実装公開とsimHashのサンプルコード-</title>  
    <link>http://ameblo.jp/th0083/entry-10272072125.html</link>  
    <description>前回のレポ をまとめる際に作ったLSH実装を公開してみました。 (　注意　：　Javaで書いてあります。　)</description>  
    <dc:date>2009-06-01T13:20:49+09:00</dc:date> 
  </item> 
</rdf:RDF>

