CS 전공/리뷰2011. 7. 9. 16:29


M. Stonebraker는 J. Gray와 함께 존경받는 DB 계의 두 guru 중의 한분입니다. 이제는 68세의 고령 임에도 아직도 현역으로 왕성한 활동을 하는 분이죠. 과거 버클리 교수로 재직시 Ingres/Postgres와 같은 DBMS 개발에 앞장섰고 퇴직 후 지금은 MIT 겸임교수로, 여러 벤처기업의 투자와 자문을 통해 Vertica나 VoltDB, SciDB같은 여러 DBMS들의 개발에도 참여해 왔습니다. 실무자들에게는 MapReduce를 초기에 D. DeWitt과 함께 신랄하게 깐 양반으로도 유명하지요.

어찌되었던 이 분의 기본적인 생각은  기존 DBMS 벤더들의  One Size Fits All 정책, 즉 모든 기능들을 DBMS가 제공하는 것은 더이상 효과적이지 못하다라는 것이고, 이러한 생각을 3편의 논문으로 연달아 발표하기도 했습니다[각주:1][각주:2][각주:3]. 대표적인 시장이 데이터 웨어하우징 마켓인데요. 데이터 웨어하우스에서는 분석 업무가 주가 되기 때문에 쓰기보다는 읽기가 상대적으로 훨씬 많은 작업 패턴을 보이고 이에 따라 읽기 I/O를 줄이는 것이 중요 이슈입니다. 이를 위해서 기존의 행 단위의 레코드 기록을 하던 DBMS를 열 단위 레코드로 변환하는 컬럼 DB가 웨어하우스 시장에 많이 보급되었지요.  최근의 DBMS 시장 동향은 예전에 올렸던 도 잠깐 살펴보시고요.

이 분이 DW 시장에 대한 자신의 10가지 주장(assertion)에 대한 얘기를 했는데, 여기에서는 그에 대한 간단한 요약을 해볼까 합니다.(본문은 여기에서 확인).

1. Star 또는 snowflake schema는 DW에서 좋은 아이디어.
 - 스키마가 이런 모습이 아니라면 뭔가 이상한거임.
 
2. column store 들이 DW 시장을 row store를 점진적으로 대체할 거임.
 - 가령 200 개의 컬럼을 갖는 행 기반 스토어에서는 1컬럼 값을 읽으려 해도 한행을 load 해야 하므로 199개의 낭비. 본질적으로 읽기 연산에서는 row store가 column store보다 우수할 수가 없다.

3. 데이터 웨어하우스는 메인 메모리나 플래시 메모리에 기록할 대상이 아니다.
 - 데이터의 증가 속도는 스토리지의 비용 감소속도보다 더 빠르다.

4. 대용량 병렬 처리(MPP) 시스템은 DW 시장에서 매우 대중적이 될 것이다.(omnipresent)
  -  "Don't bet on anything that is not in the MPP camp."

5. 자동화된 튜닝이 중요하다.
  -  DW 시장에서는 인건비가 최대 비중. 이 인건비란 시스템과 DBMS 관리에 필요한 인력의 인건비를 의미.   - 자동화된 튜닝 시스템을 만드는 것이 결과적으로  중요.

6. 어플라이언스는 단지 SW 만이어야 한다.
  -  본인의 40년 DBMS 경험에 비추어 특화된 DB 머신이 이기는 경우를 아직 보지 못했다.
 -  범용 머신을 제작하는 벤더들은 DB 머신을 제작하는 곳보다 훨씬 많고, 그만큼 가격도 훨씬 저렴하다. 
 - 본인 경험으로는 DB 어플라이언스란 HW + 패키징 사례로 생각된다. 미리 설정된 범용의 HW와 거기에 미리 잘 조직화되어 적재된 DBMS

7. One size fits all DBMS은 복합적인 작업들을 지원하지 못한다. 
 -OLTP와 OLAP를 한 DBMS에서 모두 잘 지원한다는 것은 어려운 일이다.

8.  필수적으로 DW는 고가용성을 지원해야 한다.

9. DBMS는 온라인 프로비저닝 기능을 제공해야 한다.
 - 운영 중에 노드 추가/삭제가 가능해져야 한다.

10. 가상화는 DBMS 세계에서는 성능 문제를 야기한다.
 - CPU 자원은 약간의 오버헤드를 가지고 가상화한다 하더라도, DW는 디스크 I/O가 중요하다. 따라서 물리적인 데이터 배치 정보 등이 디스크 I/O를 향상시키기 위해 중요한데 가상화는 이를 가린다. 
- 가상화의 이점 또한 많지만, 가상화된 I/O는 싸지 않다.

몇 개(2,6, 10)는 논쟁 거리가 될 소지가 좀 보이기도 하는군요. 언제나 CACM에서 M. Stonebraker의 글을 소개할때마다 열띤 논쟁이 벌어지는데요. 에디터가 실을때 마다 하는 얘기 중에 이사람의 글을 오래된 경험자의 글로써 존중 또는 생각되어야 한다는 글귀가 있습니다. 물론, 여러 벤처기업들과의 금전적인 관계가 있기는 하지만..

 

  1. One size fits all: An idea whose time has come and gone, M Stonebraker… - Data Engineering, 2005. ICDE [본문으로]
  2. One size fits all? Part 2: Benchmarking results, M Stonebraker, C Bear, U Çetinteme, CIDR 2005 [본문으로]
  3. The end of an architectural era:(it's time for a complete rewrite), M Stonebraker, S Madden, DJ Abadi,... VLDB 2007 [본문으로]
Posted by Bart
CS 전공/논문 쓰기2011. 6. 26. 14:25
SIGMOD Record 2011년 3월호에 실릴 E. Rahm의 글을 보면, 지난 10년간(2000~2009)의 DB쪽 탑 저널과 컨퍼런스에 게재된 논문에 대한 기관/국가별 통계 정보를 제공합니다. 재미난 사실들이 몇가지 있어서 그림 위주로 옮겨봅니다. 조사대항은 SIGMOD, VLDB conference와 TODS, VLDB Journal입니다. 원문은  http://dbs.uni-leipzig.de/file/aumueller2011affiliationanalysis.pdf 에서 다운로드 받을 수 있습니다.

그냥 재미삼아서 한번 보면 좋겠네요.

- 10년 동안에 논문 출판수가 거의 두배가 되었다(188 in 2000 vs. 352 in 2009)


논문당 평균 저자수와 기관 수, 국가 수, 대륙별 통계치이다.
- 평균 2개 기관에서 3명의 저자가 논문을 쓴다고 보면 맞겠다.

- 논문 수에서 미국이 압도적이다. 왜 IT, CS를 미국이 선도하는지에 대한 하나의 증거라고 할 수도 있겠다.



저자들의 세계 분포이다.
-미국읜 New england 지역과, 5대호 주위하고 캘리포니아, 시애틀 쪽에 많은 분포.
- 유럽은 골고루이긴 하나 특히 독일, 스위스가 많고, 그다음 영국, 이탈리아, 그리스 등의 순.
- 중동에서는 이스라엘이 우리나라만큼 논문 내는 듯.
- 아시아에서는 홍콩과 싱가폴의 DB 연구가 아시아를 대표한다고 할정도로 논문 수가 많음 


우리나라의 SIGMOD, VLDB 저자들의 분포.
- KAIST가 제일 많고, 다음 서울대, 서울과 대전 사이에 원 보이는데 이건 아마 수원의 성균관대일 것으로 보이는데 그렇다면 이상원 박사님 팀일 것 같고. 다음에 대구&포항(아마 한욱신 박사님 팀같고).서울 옆의 조그만 점은 강원대 문양세 박사님 팀이 아닐까 합니다.
- 저 원 키우는데 일조하고 싶은데 말이죠 ㅠㅠ


이 그래프는 게재된 논문들에 대한 기관 수와 저자 주의 상관 관계를보이는데 가로가 논문들의 전체 기관 수 세로가 기관 별 평균 저자 수입니다.
-  보면 싱가폴이 제일 높은 위치에 있는데, 이 말인즉 적은 수의 기관에서 상대적으로 많은 사람이 논문이 되었다로 해석하면 될 것이고
- 가장 오른쪽의 미국의 경우 논문 게재자들이 많은 기관들에 포진되어 있다.(저변이 넓다?) 로 해석하면 되겠습니다. 한국은 그려지지가 않았네요.편수나 저자 수가 작아서  et al.로 분류된 듯.
 


이 표는 10년간 가장 많은 논문을 탑 저널,컨퍼런스에 낸 사람들. research paper, industrial paper, demo 로 분류되어 있습니다. 

 - Research는 인도계와 중국계가 잡고 있네요.
- Srivastava가 10년간 39편 ㅠㅠ. 
 

Posted by Bart