2013년 10월 8일 화요일

인터넷, 데이터분석 관련 링크들 - (2013. 10. 8)

- 소식

  • 추석연휴와 안식휴가로 1달정도 공백.
  • 재밌어 보이는 기사가 안 보이지만, 일단 다시 시작.

- 알아두면 유용한 것들

  • 블룸 필터 Bloom Filter
    • 원소가 집합에 속하는지 여부를 검사하는데 사용되는 확률적 자료 구조
    • 어떤 원소가 집합에 실제로 속하지 않아도 속한다고 판단하는 오류는 발생
    • 어떤 원소가 집합에 속했는데, 속하지 않았다고 판단하는 오류는 절대 발생하지 않음
    • O(k), k는 사용하는 해쉬함수 개수
    • 분석할 데이터의 크기를 빠르게 줄이려고 할때 유용.
  • simhash
    • 단어셋이 유사한지 비교
    • 단에셋의 단어들을 해쉬값으로 변형하고, 각 해쉬값을 가지고 고정된 자리수의 bit에 값을 가감을 하면서 simhash를 계산
    • 유사문서(near-duplicate document) 찾아내는 작업을 빠르게 할수 있음

- 읽을거리






댓글 없음:

댓글 쓰기