2012년 7월 24일 화요일

Data Mining Scrap #1

















#1 



<slide>




# Devs Love Bacon: Everything you need to know about Machine Learning in 30 minutes or less


http://www.hilarymason.com/presentations-2/devs-love-bacon-everything-you-need-to-know-about-machine-learning-in-30-minutes-or-less/




# twitter에서는 pig를 가지고 ML을.. 


https://speakerdeck.com/u/lintool/p/large-scale-machine-learning-at-twitter






<paper>




# Trustworthy Online Controlled Experiments: Five Puzzling Outcomes Explained


http://blog.markus-breitenbach.com/2012/07/06/puzzling-outcomes-in-controlled-experiments/


http://glinden.blogspot.kr/2012/07/puzzling-outcomes-in-ab-testing.html




controlled experiments (=A/B test)의 결과가 이상하게 나왔을때의 이유와 어떻게 해야될지에 대한 경험.. 




  1. the OEC for a Search Engine


    - OEC (overall evaluation criterion)을 무엇으로 하는가가 중요하다. 


    - 잘못된 검색엔진의 결과 => 쿼리수 상승, 수입증가(광고클릭 증가) 


    - ??? => 원하는 검색결과가 나오지 않아서 클릭을 많이 했다. => 장기적으로 유저감소 


    - distict queries/month = users/month * sessions/user * distinct queries/session 로 decompose..


    - distinct queries/session 는 검색엔진의 성능이 떨어져도 상승


    - sessions/user 를 봐야 실제로 성능이 좋아졌는지 판단 가능하다. 




  2. Click Tracking


    - 속도 감소 => 유저클릭 증가?? 




  3. Initial Effects Appear to Trend


    - primacy : 기존 유저가 바뀐데 적응을 못해 수치가 적게 나옴 


    - novelity : 기존 유저가 새로운 기능을 모두 눌러봐서 (궁금해서) 수치가 높게 나옴


    => new user만 측정?


    => 초기 7일 제거?


    => 분석 기간의 연장? 




  4. Experiment Length and Statistical Power


    - 분석기간을 늘린다고 CV(coefficient variable)이 낮아지지 않는 경우도 있다. 


    => 적당한 분석기간 필요 




  5. Carryover Effects


    - bucket test를 했던 유저의 경우에 test가 끝나도 일반유저와 동일한 수치가 되려면 시간이 필요하다. 


    => A/A test 필요 


    => bucket 테스트 마다 user를 indepent 하게 선택






<term>




# controlled experiments = A/B test = bucket test (거의 유사, 미묘한 차이..)




# 구글 판다 & 팽귄 


http://googlekoreablog.blogspot.kr/2012/07/blog-post.html


- 구글 코리아에서 구글 판다 알고리즘이 한국에도 적용되었다고 함. 


- 구글 판다는 사이트 품질의 높고 낮음을 평가하는 ML기반 알고리즘.


- 구글 팽귄은 주로 SEO를 악용한 사이트의 랭킹을 낮추는 알고리즘.




# 구글 판다


http://en.wikipedia.org/wiki/Google_Panda


aimed to lower the rank of "low-quality sites" or "thin sites", and return higher-quality sites near the top of the search results.


- scraper sites


- thin content sites


- similar content sites


- badly structuerd sites




# 구글 팽귄


http://en.wikipedia.org/wiki/Google_Penguin


The update is aimed at decreasing search engine rankings of websites that violate Google’s Webmaster Guidelines by using black-hat SEO techniques such as keyword stuffing,cloaking, participating in link schemes, deliberate creation of duplicate content, and others.




# keyword stuffing


 - Coloring text the same as the background color


 - Positioning text far away from the center of the webpage


 - Putting text behind a picture so that it cannot be seen






<etc>




# sed one line


http://sed.sourceforge.net/sed1line.txt




# awk one line


http://www.pement.org/awk/awk1line.txt









댓글 없음:

댓글 쓰기