- 소식
- 추석연휴와 안식휴가로 1달정도 공백.
- 재밌어 보이는 기사가 안 보이지만, 일단 다시 시작.
- 알아두면 유용한 것들
- 블룸 필터 Bloom Filter
- 원소가 집합에 속하는지 여부를 검사하는데 사용되는 확률적 자료 구조
- 어떤 원소가 집합에 실제로 속하지 않아도 속한다고 판단하는 오류는 발생
- 어떤 원소가 집합에 속했는데, 속하지 않았다고 판단하는 오류는 절대 발생하지 않음
- O(k), k는 사용하는 해쉬함수 개수
- 분석할 데이터의 크기를 빠르게 줄이려고 할때 유용.
- simhash
- 단어셋이 유사한지 비교
- 단에셋의 단어들을 해쉬값으로 변형하고, 각 해쉬값을 가지고 고정된 자리수의 bit에 값을 가감을 하면서 simhash를 계산
- 유사문서(near-duplicate document) 찾아내는 작업을 빠르게 할수 있음
댓글 없음:
댓글 쓰기