#1
<slide>
# Devs Love Bacon: Everything you need to know about Machine Learning in 30 minutes or less
http://www.hilarymason.com/presentations-2/devs-love-bacon-everything-you-need-to-know-about-machine-learning-in-30-minutes-or-less/
# twitter에서는 pig를 가지고 ML을..
https://speakerdeck.com/u/lintool/p/large-scale-machine-learning-at-twitter
<paper>
# Trustworthy Online Controlled Experiments: Five Puzzling Outcomes Explained
http://blog.markus-breitenbach.com/2012/07/06/puzzling-outcomes-in-controlled-experiments/
http://glinden.blogspot.kr/2012/07/puzzling-outcomes-in-ab-testing.html
controlled experiments (=A/B test)의 결과가 이상하게 나왔을때의 이유와 어떻게 해야될지에 대한 경험..
1. the OEC for a Search Engine
- OEC (overall evaluation criterion)을 무엇으로 하는가가 중요하다.
- 잘못된 검색엔진의 결과 => 쿼리수 상승, 수입증가(광고클릭 증가)
- ??? => 원하는 검색결과가 나오지 않아서 클릭을 많이 했다. => 장기적으로 유저감소
- distict queries/month = users/month * sessions/user * distinct queries/session 로 decompose..
- distinct queries/session 는 검색엔진의 성능이 떨어져도 상승
- sessions/user 를 봐야 실제로 성능이 좋아졌는지 판단 가능하다.
2. Click Tracking
- 속도 감소 => 유저클릭 증가??
3. Initial Effects Appear to Trend
- primacy : 기존 유저가 바뀐데 적응을 못해 수치가 적게 나옴
- novelity : 기존 유저가 새로운 기능을 모두 눌러봐서 (궁금해서) 수치가 높게 나옴
=> new user만 측정?
=> 초기 7일 제거?
=> 분석 기간의 연장?
4. Experiment Length and Statistical Power
- 분석기간을 늘린다고 CV(coefficient variable)이 낮아지지 않는 경우도 있다.
=> 적당한 분석기간 필요
5. Carryover Effects
- bucket test를 했던 유저의 경우에 test가 끝나도 일반유저와 동일한 수치가 되려면 시간이 필요하다.
=> A/A test 필요
=> bucket 테스트 마다 user를 indepent 하게 선택
<term>
# controlled experiments = A/B test = bucket test (거의 유사, 미묘한 차이..)
# 구글 판다 & 팽귄
http://googlekoreablog.blogspot.kr/2012/07/blog-post.html
- 구글 코리아에서 구글 판다 알고리즘이 한국에도 적용되었다고 함.
- 구글 판다는 사이트 품질의 높고 낮음을 평가하는 ML기반 알고리즘.
- 구글 팽귄은 주로 SEO를 악용한 사이트의 랭킹을 낮추는 알고리즘.
# 구글 판다
http://en.wikipedia.org/wiki/Google_Panda
aimed to lower the rank of "low-quality sites" or "thin sites", and return higher-quality sites near the top of the search results.
- scraper sites
- thin content sites
- similar content sites
- badly structuerd sites
# 구글 팽귄
http://en.wikipedia.org/wiki/Google_Penguin
The update is aimed at decreasing search engine rankings of websites that violate Google’s Webmaster Guidelines by using black-hat SEO techniques such as keyword stuffing,cloaking, participating in link schemes, deliberate creation of duplicate content, and others.
# keyword stuffing
- Coloring text the same as the background color
- Positioning text far away from the center of the webpage
- Putting text behind a picture so that it cannot be seen
<etc>
# sed one line
http://sed.sourceforge.net/sed1line.txt
# awk one line
http://www.pement.org/awk/awk1line.txt