LuceneTokenizer.java example

Explorer

twitter-tools-master
- twitter-tools-core
  - src
    - attic
      - java
        cc
        twittertools
        corpus
        data
        TSVStatusBlockReader.java
        TSVStatusCorpusReader.java
        download
        AsyncJsonStatusBlockCrawler.java
        VerifyJsonStatusBlockCrawl.java
    - main
      - java
        cc
        twittertools
        corpus
        data
        HTMLStatusExtractor.java
        JsonStatusBlockReader.java
        JsonStatusCorpusReader.java
        Status.java
        StatusStream.java
        demo
        ReadStatuses.java
        download
        AsyncEmbeddedJsonStatusBlockCrawler.java
        AsyncHTMLStatusBlockCrawler.java
        index
        ExtractTermStatisticsFromIndex.java
        ExtractTweetidsFromCollection.java
        ExtractTweetidsFromIndex.java
        IndexStatuses.java
        LowerCaseEntityPreservingFilter.java
        TweetAnalyzer.java
        search
        TrecTopic.java
        TrecTopicSet.java
        api
        RunQueriesBaselineThrift.java
        RunQueriesThrift.java
        SearchStatusesThrift.java
        TResultComparable.java
        TrecSearchHandler.java
        TrecSearchThriftClient.java
        TrecSearchThriftLoadGenerator.java
        TrecSearchThriftServer.java
        local
        RunQueries.java
        SearchStatuses.java
        stream
        GatherStatusStream.java
        thrift
        gen
        TQuery.java
        TResult.java
        TrecSearch.java
        TrecSearchException.java
        util
        ExtractSubcollection.java
        VerifySubcollection.java
    - test
      - java
        cc
        twittertools
        download
        FetchStatusTest.java
        index
        TokenizationTest.java
        search
        TrecTopicSetTest.java
- twitter-tools-hadoop
  - src
    - main
      - java
        cc
        twittertools
        hadoop
        Example.java
        hbase
        LoadWordCount.java
        WordCountDAO.java
        piggybank
        ConvertCreatedAtToEpoch.java
        GetLatitude.java
        GetLongitude.java
        IsMap.java
        udf
        GetDate.java
        GetInterval.java
        LuceneTokenizer.java
- twitter-tools-rm3
  - src
    - main
      - java
        edu
        illinois
        lis
        document
        FeatureVector.java
        feedback
        FeedbackModel.java
        FeedbackRelevanceModel.java
        query
        GQueries.java
        GQueriesJsonImpl.java
        GQuery.java
        TrecTemporalTopic.java
        TrecTemporalTopicSet.java
        rerank
        SearchReranker.java
        TResultComparator.java
        search
        RunQueries.java
        searchsource
        IndexWrapperMicroblogApi.java
        utils
        ExtractGqueriesFromTrecFormat.java
        KeyValuePair.java
        ListUtils.java
        LuceneQuery.java
        ParameterBroker.java
        Qrels.java
        Scorable.java
        ScorableComparator.java
        Stopper.java
- twitter-tools-ttgbaseline
  - src
    - edu
      - gslis
        ttg
        clusters
        Cluster.java
        Clusters.java
        clusterers
        SimpleJaccardClusterer.java
        jaccard
        JaccardStore.java
        main
        RunTTGBaseline.java
        searchers
        SimpleSearcher.java

package cc.twittertools.udf;

import java.io.IOException;
import java.io.StringReader;
import java.util.StringTokenizer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.WhitespaceTokenizer;
import org.apache.lucene.analysis.en.PorterStemFilter;
import org.apache.lucene.analysis.standard.StandardTokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;
import org.apache.pig.EvalFunc;
import org.apache.pig.data.BagFactory;
import org.apache.pig.data.DataBag;
import org.apache.pig.data.Tuple;
import org.apache.pig.data.TupleFactory;

import cc.twittertools.index.LowerCaseEntityPreservingFilter;

public class LuceneTokenizer extends EvalFunc<DataBag>{
	TupleFactory mTupleFactory = TupleFactory.getInstance();
    BagFactory mBagFactory = BagFactory.getInstance();
    
    public DataBag exec(Tuple input) throws IOException{
	    try {
	        DataBag output = mBagFactory.newDefaultBag();
	        Object o = input.get(0);
	        if (!(o instanceof String)) {
	            throw new IOException("Expected input to be chararray, but  got " + o.getClass().getName());
	        }
	        Tokenizer source = new WhitespaceTokenizer(Version.LUCENE_43, new StringReader((String)o));
	        TokenStream tokenstream = new LowerCaseEntityPreservingFilter(source);
	        tokenstream.reset();
	        while (tokenstream.incrementToken()){
	        	String token = tokenstream.getAttribute(CharTermAttribute.class).toString();
	        	output.add(mTupleFactory.newTuple(token));
	        }
	        return output;
	    } catch (Exception e) {
	        // error handling goes here
	    	throw new IOException("caught exception",e);
	    }
    }
}