링블로그-그만의 아이디어 :: 살색 모니터링 기술

서비스를 관리하고 운영하는 데는 늘 비용이 필요하다. 시간이든, 인력이든, 또는 돈이든...
지난 번 제가 포스팅 했던 상상 속의 음란물 차단 기술과 현실을 기억해주세요.

오늘 이런 기사가 떴습니다.

음란물 판독기술 개발한 야동잡는 ‘유본좌’ 한겨레 [네이버]

어떻습니까? 깜짝 놀라셨죠? 살색을 잡아내고 음란이냐 아니냐를 판단해주는 소프트웨어가 있습니다. 물론 상용화될 수 있느냐는 미지수입니다. 이것 말고도 더 있을 겁니다. 소프트웨어의 세계는 너무나 다양하니까요..^^

그런데 지난 번에 이은 제 판단은 아직도 유효합니다. 이러한 기계적인 모니터링은 늘 한계를 갖고 있기 때문이죠.

97%와 100%의 차이.
기사에 음란물 판독률 97%를 자랑한다고 합니다. 이 때 97%는 음란물 100건 가운데 3건은 음란물이 아니라는 판정 결과가 나왔다는 것입니다.

3건이 기사화 되거나 이슈화 되면 지난 번 야후 사건과 별반 다름 없는 결과가 될 것입니다.

제목을 상상해 보면 '초정밀 모니터링도 무용지물', '음란물 곳곳서 발견'... 사회적 분위기란 것이 그렇습니다. 발견되면 마치 엄청난 문제인 것처럼 돼버리죠.

이 시스템을 도입해봤자겠죠?

그리고 내용상에서도 하얀거탑 드라마의 수술장면을 음란물이라고 판정내렸다고 하는데요. 살색이 많아서겠죠. 아마 향수 광고나 화장품 광고들도 그 범주에 들 것으로 봅니다.

문제는 이겁니다. 1000건이 있는데 음란물 판정을 하려면 동영상 1000건을 실시간으로 5초씩 캡처를 받아 판정을 내려서 100건을 골라냈다고 합시다.

그렇다면 900건 속에는 3%의 음란물이 존재하고 있을 것이고 음란물 판정을 받은 100건 중에는 또 음란물이 아닌 것이 포함돼 있습니다.

이것을 잡아내려면? 900건 속의 3%를 잡기 위해 기존과 별반 다름 없는 모니터링을 해야 하는 것이고 따로 분류된 것 가운데 음란물이 아닌 것에 대한 권리 보호를 위해 제외시켜주기 위해 다시 인적 모니터링이 들어갑니다.

100%가 아니면 의미가 없는 기계식 판정의 모순입니다.

해외에서 이걸 사오려는 곳은 아무래도 NHN이 아닌가 싶습니다. 아무래도 그런 비슷한 소프트웨어 기술은 색분류 알고리즘과 학습 후 성능 향상 등의 화려한 수식어로 무장돼 있을 것입니다.

문제는 늘 그랬듯이 3%가 문제였습니다.

음란물이 판치고 있는 듯한 분위기지만 직접 찾지 않는 이상 어디서 보시기나 하셨나요?

그리고 음란물의 기준은 또 어떨까요? 헤어누드와 뒤가 패여 있는 드레스를 입은 연예인 뒷모습은 어떤 차이가 있을까요?

그만이 생각하기에 이 문제는 인적 모니터링에 대한 효율화 방안을 우선해야 한다고 봅니다. 기계적 모니터링은 차라리 좀더 시간을 두고 100%에 근접했을 때 들여와도 늦지 않습니다. 투자자들의 돈은 그런 버전 0.5짜리 버전의 비싼 소프트웨어 사라고 있는 것이 아닙니다.

------------------------------>
** 덧, 제가 다 옳을 수는 없겠죠..^^
이 정도면 꽤 우수하다는 입장을 가지신 분도 있습니다.

http://monac.egloos.com/1075018
살색 모니터링 기술[Monaca]

다른 의견을 올려주신 분들도 있습니다. 댓글을 자펌합니다.

키엘 2007/04/05 12:41
거꾸로 해석하신것 같은데요. 그리고 저 3%라는 내용은 음란물이라고 판정 나온것중에 음란물이 아닌것의 비율 아닌가요? 음란물이 아니란것 가운데 3건이 음란물이면 문제가 되지만, 음란물이라고 판정나온것중에 3건이 음란물이 아니면 그건 문제가 안되죠.
'음란물 컨텐츠 알고봤더니 정상 컨텐츠' 이렇게 기사가 나갈까요?
게다가 전체를 전수 모니터링 하는것보다 판정받은 100건을 모니터링해서 3건이 아닌것을 걸러내는게 더 효율적인건 분명하고요,

사람이 직접 확인하면 3% 이상 오차가 안날까요? 모든 동영상을 사람이 모두 확인해보면 100% 가능할까요? 절대 그렇지 않습니다.

100% 완전한 소프트웨어가 나올때까지 사용하지 않는다면, 웹2.0이나 베타니 하는것들은 모두 폐기해야 하지 않을까요?

1. 그만 2007/04/05 14:02
말씀하신대로 음란물이라고 나온 것 중 3건이 음란물이 아니면 문제가 안될 수도 있죠.

하지만 문제는 음란물 판정 밖의 음란물은 늘 존재할 수 있다는 것입니다. 기사 내용에서도 나오지만 음성 샘플도 분석해야 하는 과정도 함께 필요하고 풀밭에서 옷 입고 음란한 짓을 하는 것은 음란물로 어떻게 판정하느냐에 대한 고민도 있다고 하는군요.

판정 범위를 넓게 잡아 혐의가 있는 것들은 모두 음란물로 편입시켜 음란물이 아닌 것을 잡아내는 것은 매우 효율적일 수 있습니다. 전제는 그 범위 안에 모든 음란물이 들어 있어야 한다는 것입니다. 그 판정 범위를 벗어난 것 가운데 음란물인 경우가 임의적으로 3%, 또는 0.3%라고 해도 마찬가지죠. 그것은 사람이 또 범위 밖을 따로 모니터링할 수 밖에 없는 상황입니다.

범위 안도 사람이, 그리고 범위 밖도 사람이 모니터링한다면 그게 효율적일 수는 없겠죠.

또한 말씀하신대로 사람이 전수 조사해도 100%가 안 되는 상황에서 100% 잡아낼 자신이 없는 소프트웨어를 굳이 구입해 운영하는 이유는 무엇입니까? 소프트웨어를 사용해 운영 효율성이 높아질 수 있다는 확신이 없이 도입할 필요는 없지 않을까요?

소프트웨어가 찾아낸 범위 안의 영상도 조사하고 혹시 모를 범위 밖의 영상물도 조사한다면, 기존 전수 모니터링 하는 것과 다를 것은 무엇인가요?

'음란물의 공연한 전시'는 불법입니다. 소프트웨어의 완전성하고는 별개입니다. 불법은 가해자와 피해자가 나뉘는 것입니다. 사람의 가치 판단이 절대적으로 필요한 분야이므로 다른 소프트웨어의 용도와 다르다고 봐야 합니다.

기존 금칙어 처리와는 또 다른 문제라는 것입니다. 모니터링에 있어서 효율적인 방안을 찾는 것이 기업 입장에서도 나을 수 있다는 말씀을 드리고 싶었던 것입니다.

따끔한 의견 감사드립니다.