CS 전공/생각?2008. 9. 4. 18:28
요사이 들어 궁금해지는 질문이 하나 있다.

왜 엔지니어(여기에서 엔지니어란 실제 필드에 나가서 일하고 있는 practitioner를 일컬음)는 졸업 후 일을 하는데 있어 논문을 읽지 않는가?
  - 부분문자열 검색에 있어 Boyer-Moore 알고리즘이 최대 N/M 여기에서 N은 스트링 길이, M은 검색 문자열의 성능을 제공해 주는 것을 안다면 char by char로 하나씩 비교하는 것이 얼마나 무식한 짓인지 알텐데... 아니면, 단순히 라이브러리에서 제공하는 substr()함수라는 것이 어떻게 구현되어 있는지는 알고 사용하는 건가?

왜 엔지니어는 시스템의 scalability는 고려하지 않고, 그냥 돌아가게만 짤까?
  - 포인터로 넘기라고 해도 구현이 복잡하다고 value copy를 해버리고. 크기가 큰 struct를 value copy하는 것이 잘못되었다는 것을 굳이 pointer address의 길이와 struct의 크기만 비교를 해도 알 수 있을텐데...

왜 엔지니어는  scalability는 무조건 서버 담당이라고 생각을 할까?
 
세상에 쏟아지는 알량한 개발 기술들 익히기 전에 기본부터 잡아 놓고 있어야 하는 것이 아닌가. 프로그램 짜면서 간단하게나마 알고리즘의 복잡도는 지속적으로 신경써야 하는 것 아닌가..
지금 잘나간다는 개발 기술이 몇년, 몇십년 지나고나서도 계속 쓰일 것도 아닐 것이고... 변화하는 개발환경에 맞춰가는 것도 중요하지만 어떤 경우에 있어서도 비범하게 사용될 기본은 있어야 하는 것이 아닌지..
왜 우리나라엔 남의 나라 회사 기술들의 전도사들이 이렇게 많은지...

결국엔 그 기술로 비즈니스 솔루션 만들고 보면 scalability 면에서 도저히 외산을 못 따라가 종국엔 외산 비즈니스 솔루션 통채로 사 버리고, 나중에 하는 것이라곤 외산 서버 위에서 애플리케이션의 개발 밖에 되지 않는다.  

그럼 다시 처음으로 돌아가서 왜 자료구조, 알고리즘 과정을 배우고 졸업한 엔지니어들이 최소한의 scalability도 고려하지 않는 것일까? 왜 그들에게 논문이란 읽고 이해하기가 그토록 어려운 것일까? Practitioner와 theorist 간의 장벽은 그리도 두꺼운가?

이런 문제에 대해서 대학에서 신경써줘야 하는 거 아닌가..?
근데 이런 주제는 CS의 어느 분야에 속하지? SE인가 아니면 전산교육인가.



 

'CS 전공 > 생각?' 카테고리의 다른 글

한국이 노벨상 없는 이유  (0) 2009.07.31
DB쪽 논문 인용 수 TOP5?  (2) 2009.07.29
불태웠어 새하얗게...  (4) 2008.08.29
이 학회는 대체...  (2) 2008.06.26
IEEE TKDE 리뷰  (3) 2008.06.23
Posted by Bart
CS 전공/생각?2008. 8. 29. 05:59
 
사용자 삽입 이미지


'활활 타지 않고 껍데기만 타다 꺼져버리는 삶이 아니라 눈부실 정도로 새빨갛게 타올라 새하얀 잿가루가 되는 삶을 살겠노라.'

*재패니메이션 내일의 조에 대한 어느 블로그(http://blog.naver.com/kiralove1/10034282244) 에서

'CS 전공 > 생각?' 카테고리의 다른 글

DB쪽 논문 인용 수 TOP5?  (2) 2009.07.29
엔지니어는 왜 논문을 읽지 않는가?  (1) 2008.09.04
이 학회는 대체...  (2) 2008.06.26
IEEE TKDE 리뷰  (3) 2008.06.23
[퍼온글]나의 꿈 - 문병로  (0) 2008.04.13
Posted by Bart
CS 전공/생각?2008. 6. 26. 11:17
작년부터 우리나라에서 개최하는 모 국제 학술대회가 있다. 논문집이  IEEE CS proceeding으로 나오기 때문에 BK 실적이 필요한 사람들이 작년에 많이 내었다. 나역시 국내에서 개최하는 해외학술대회인지라 여기다 논문을 냈었지.

그런데, 좀, 아니 많이 이상했다.
작년의 경우에는 논문 제출 후 1주일 만에 심사 결과가 왔다. 웃긴 건 심사평은 아무것도 없고 딸랑 acceptance 여부만 온 것이다. 작년 여기에 투고한 다른 사람은 reject를 받았는데 왜 reject를 받았는지에 대한 comment가 아무것도 없어 황당하다고 했었다. 그리고나서 acceptance ratio는 30% 이내라고 공지를 띄웠다. 몇편이 제출되었고 몇편이 채택되었는지에 대한 언급도 없이... 참고로 말하면 BK 실적에서 acceptance ratio 30% 이내 논문은 SCI급으로 인정해준다. BK에서만...
받아온 프로시딩 CD를 보니 논문 몇수가 몇백편인지 모르겠다. 너무 많다. 다 받아준거 아닌가 싶을 정도로...

그래서 생각하기를 이거 혹시 '개나소나'가 아닌가... 싶었다.
그리고 오늘 이메일을 확인했더니 올해 이 학술대회의 논문 제출마감을 연기한다는 email이 와 있다. 아마 이전 참가자들에게 돌린 이메일이겠지... 호기심에 얘네들  이번에도 또 그럴까 싶어 방문해봤더니, 아니나 다를까. 올해 이 학회의 important dates를 보니, 연기되고 연기된  논문 제출일은 7월 10일까지이면서 심사결과통보일은 그보다 빠른 7월 5일부터 7월 15일까지이다. 해도 너무한다. 어떻게 5일만에 심사를 끝낼 수가 있는가? 주요 컨퍼런스들이 적게는 두달부터 많게는 석달까지 심사기간을 두는 것과는 너무나 많은 차이가 난다. 무슨 놈의 학회가 이러냐... 이런 상황이더라도 실적 필요한 사람들은 여기에 또 논문 내겠지. 아니 오히려더 좋다고 쾌재를 부르면서 논문 내는 사람들 분명 있을거다. 실적추구엔 이만한 데가 없을테니까...

이런 학회를 이메일을 통해 전세계의 업자들에게 알린다는게 얼마나 국내업자들을 어글리 코리안으로 만드는지를 알기는 하는걸까...  최소한의 거르기는 존재해야지.  미안하지만 이런 학회는 사라져주는 것이 좋다.

갑자기 옛날에 SCIGen(http://en.wikipedia.org/wiki/SCIgen)이라는 랜덤 논문 작성기(물론 말도 안되는 문장들만 채워넣어지는...) 로 작성된 논문을 걸러내지 못하고 select 시켜서 희대의 조롱거리가 되어 버린 WMSCI(World Multiconference on Systemics, Cybernetics and Informatics; http://en.wikipedia.org/wiki/WMSCI)란 학술대회가 생각나는구나. 쩝.

'CS 전공 > 생각?' 카테고리의 다른 글

엔지니어는 왜 논문을 읽지 않는가?  (1) 2008.09.04
불태웠어 새하얗게...  (4) 2008.08.29
IEEE TKDE 리뷰  (3) 2008.06.23
[퍼온글]나의 꿈 - 문병로  (0) 2008.04.13
몰입적 사고  (0) 2007.12.11
Posted by Bart
CS 전공/생각?2008. 6. 23. 01:00
요새 문 교수님이 하시는 분야를 보니까 XML 쪽에서 Database on new Hardware로 넘기고 계시는 듯 하다. 정확히는 Flash Memory를 저장장치로 이용하는 DBMS에 대한 연구랄까... 성균관대 이상원 교수님과 같이 하시는 것 같다.. 삼성전자도 관여된 듯 하고...

하긴 XML이 나온지 10년이 넘었으니...  얘 때문에 만들어진 산에  많이들 깃발꽂기를 해온 것도 사실이다.

아무튼 문 교수님이 associate editor로 활동하고 계신 IEEE TKDE(Transactions on Knowledge and Data Engineering)에 XML 관련 논문이 접수가 되었는데, 이 논문의 외부심사자로 나에게 리뷰를 요청하셨다(최근에 연구 주제를 옮기셨다하나 아직 specialty는 XML이니끼리...) 이 쪽의 탑 3 저널 중 하나에 심사를 맡기시다니.. 초반부터 넘 세게 나오시는 거 아냐..라는 부담감도 좀 있었지만, 좋은 경험이다 싶어 리뷰를 진행했다.  보니 Holistic twig join 에 관련한 내용이다.  XML Query processing 쪽은 쭉 관심있게 보던 분야라서 그런지 심사하는데 큰 무리는 없었다.

근데 이 논문의 저자, 리뷰하면 할수록 TJFast라는 다른 Holistic join algorithm 관련 논문과 좀 관계가 있는 친구같다. 정의에 사용한 심볼도 비슷하고, 무엇보다 논문 내용이 TJFast와 매우 밀접한 관계가 있다.  근데 TJFast  내용을 빼면 별로 다른 내용이 없는 것 같다. 평가하기 애매하더군...  TJFast는 2005년도에 발표되서 시간이 좀 지났는데... 그리고, TJFast가 보기보다 달리 Backward Navigation을 필요로 하기 때문에 결국엔 입력 데이터 크기가 준 것이라 보기 어려운 단점도 있지.... 내용은 그렇다지만 논문의 구성이란 참... 외국애들이 쓰는 논문을 보면 기승전결이 뚜렷한게 마치 잘 쓰여진 단편소설을 읽는 것 같다.

소개-> 연구 동기 -> 연구의 주요결과-> 논문의 구성-> 본문-> ....
문장이 여럿 넘어감에도 독자가 논제를 놓치지 않게하면서 계속 끌고 나가는 힘이란 얘네들은 이런 훈련을 잘 받았는지.... 심사하면서 배운것도 많드라...

나는 심사만 하고, 언제 논문 쓰지 뷁~~



'CS 전공 > 생각?' 카테고리의 다른 글

불태웠어 새하얗게...  (4) 2008.08.29
이 학회는 대체...  (2) 2008.06.26
[퍼온글]나의 꿈 - 문병로  (0) 2008.04.13
몰입적 사고  (0) 2007.12.11
좋은 연구를 위해 필요한 것들..  (1) 2007.11.20
Posted by Bart
CS 전공/학회와 정보2008. 6. 17. 15:57
웹 서핑 중에 알게된 사이트인 Eventseer(http://eventseer.net)
제목에서도 보면 알 수 있듯이 Citeseer와 같이 업자용 사이트이다.

각 인물 별로 관계되는(논문을 게재한) conference의 schedule과 또 내보낸 논문들의 주제들을 분류해 제공한다. 또한, 관계되는 주제에 해당하는, 곧 다가올 conference도 무엇이 있는지 알려준다. 그리고, 논문들의 저자 리스트를 추출하여 관계되는 사람들과 그들의 최근 conference 게재 또는 참석 실적을 알려준다.
 
아래는 내 Hosting Prof.를 검색 조건으로 한 예시 화면.


사용자 삽입 이미지

Posted by Bart
CS 전공/생각?2008. 4. 13. 22:52
나의 꿈
문병로 (서울대 최적화연구실, 전산과학과 조교수)

--------------------------------------------------------------------------------

연구실 창 너머 관악산의 설경이 한 폭의 수채화 같다. 멀리 산꼭대기 바위 위에 등산객 십여 명이 보인다. 주위에 사람들로 붐비던 회사를 떠나 많은 시간을 혼자 지내야 하는 생활, 생각보다 잦은 회의나 행사들, 다소 늦어진 출근 시간, 3분의 2로 줄어든 월급 봉투, 공손하고 총명한 학생들, 2.14 배 늘어난 자부심:-)... LG에 근무하다가 지난 학기부터 이곳 서울대 전산과학과에서 학생들을 가르치게 되면서 생긴 변화들이다. 이런 방식으로 정착하기 위해 지난 7 년간 무지하게도 열심히 살았다. 창현이한테 랩지에 글을 써 달라는 전화를 받고 어떠한 내용의 글을 쓸까 고민하다가 결국 다소 부끄럽지만 가장 손쉬운 나의 이야기를 쓰기로 했다.

나의 학부 시절을 잘 아는 친구들은 나의 지금 모습이 너무도 어울리지 않는다고 말한 다. 학부 시절 나는 공부에 별 취미가 없는 학생이었고 학문의 길을 가야겠다는 꿈은 아예 갖지도 않았다. 대신에 많은 과외 활동에 대부분의 시간을 보내면서 다소 특이한 대학 `5 년'을 보냈다. 서울대 자연대 계열로 입학한 나는 일학년 때 열심히 딴 짓을 한 덕분에 이학년 진급 때는 지금의 전산과학과에 해당하는 당시의 계산통계학과 배정에 실패하였다. 미달학과 중에 골라 배정을 받는 전형적인 코스를 받아들이지 않고 배정 거부를 택했다. 당시 250 명의 자연대 동기들 중에 이러한 코스를 택한 사람은 나를 포함하여 4 명이었다. 이 4 명은 자연대에서도 행정적으로 항상 예외적으로 처리해야 했으므로 골치덩어리들이었다. 이학년 때는 열심히 공부하여 삼학년으로 진급하면서 계산통계학과에 배정을 받았다. 삼학년 초에는 재경 마산학우회장 선거에 출마하였는데 한 달간의 선거 운동 기간을 거쳐 당선되었다. 재경마산학우회는 마산 출신으로 서울 지역에 있는 대학에 재학중인 대학생들의 총 연합회인데 2,000여 명의 회원을 갖고 있는 단체였다. 과 배정 거부 때에는 물론이고 학우회장 출마를 놓고도 집안의 반대가 심했다. 쓸데없이 대학생들 모임을 맡아 다치지 않을까 하는 염려에서 전전긍긍하셨다. 학우회 활동은 매우 바빴다. 회장이 주로 하는 일은 선배들을 찾아 다니면서 기부금을 받고 행사 준비를 하는 일이었다. 그 때 많은 선배들을 만났는데 동양나일론 배기은 사장, 나중에 정무장관이 되신 중앙일보 손주환 국장, 나중에 신한국당 사무총장이 되시지만 당시에는 실업자였던 강삼재 의원, 한국은행 하영기 총재, 현 은행감독원장이신 이수휴 재무협력관장, 배명인 법무장관 등 줄잡아 100 분 정도는 만났던 것 같다. 매우 바쁜 분들이셨는데도 아무 약속 없이 (약속하려고 하면 안 만나줄까봐) '습격한' 동향 출신의 대학생들에게 귀중한 시간을 내어 주시고 가끔은 살아가는 얘기를 들려주기도 하셨다. 이러한 만남들로부터 학업에 대한 손해 이상으로 많은 것을 배웠다. 나는 다른 대학과 우리 학교의 단과대 동문 모임들에 체력의 한계까지 불려 다녔고 한 번 차례가 와서 노래를 하면 최소한 세 개 정도는 내리 불러야 앉곤 했다. 노래방이라는 것은 있지도 않은 시절이었으니 노래에 마음대로 감정을 넣어 늘이고 당기고 할 수 있었다. 가사는 노래방의 화면에서 옮기는 것이 아니라 가슴으로부터 끌어내었다. 참 낭만적인 시절이었다. 재미있는 것은 당시에도 선배들은 자신들이 우리만할 때는 참 낭만적이었다고 얘기했었고 우리도 같은 이야기를 후배들에게 했으며 지금의 재학생들도 후배들에게 그런 이야기를 할 것이다. 이러한 것은 조선 시대에도 비슷했을 것이고 그렇다면 지금은 무지무지 무미건조해야 하는데 여전히 세상은 훈기가 넘친다. 나는 그 학기에 학우회일로 몸이 상할 정도로 바빠 한 학기를 통째로 drop해야 했고 대학을 5 년 동안 다니게 되었다.

대학의 마지막 오년차에는 과학원에 가기 위해 열심히 공부를 했다. 우리 스터디 그룹에는 현대전자 책임연구원으로 있는 박승철 박사, 우등생이었던 퓨쳐 시스템 이사 안종길 박사, 카톨릭대 교수 박정흠 박사, 로스알라모스 연구소에서 연구중인 이준영 박사가 있었다. 이준영 박사는 대학원으로 가고 너머지 넷은 과학원으로 가서 꿈같은 시절을 보냈다. 싹이 노란색이던 나와 박승철은 체질에 맞게 석사 마치고 연구소로 나가고, 파란색 세 사람은 계속 박사 공부까지 하게 되었다. 과학원 때도 나는 엉뚱한 일에 시간을 많이 뺏겼다. 책 읽는 것이 너무 재미있어 깨어 있는 시간의 반은 독서로 보냈다. 전공책을 본 시간이 3 정도라면 다른 독서물에는 7 정도의 시간을 보냈다. 경제적으로 넉넉하지 않았으므로 주로 700원 내외였던 문고판을 애용했다. 매달 월급 타면 서점으로 가서 책을 스무 권 정도 사도 2만원을 넘지 않았다. 홍릉 과학원 근방의 거의 모든 술집들은 돈 없이도 그냥 먹고 이름만 불러주면 외상이 되었고 월급 타면 가게들을 투어하면서 외상값을 갚는 것이 첫 번째 일이었다. 그 때 안종길이라는 천재가 내 곁에 있었다는 것은 일생의 행운이었다. 특히 흥미가 있었던 과목만 빼고는 공부를 그리 열심히 하지 않았었는데 시험 보기 이삼일 전에 그를 불러 그동안 공부한 것을 설명해 달라고 하면 이 기막힌 천재는 아무리 어려운 내용이라도 개념의 정의에서부터 시험을 볼 수 있는 수준까지 컴퓨터처럼 두세 시간 내에 요약을 해주었다. 과학원은 석사과정도 학점이 짠 편이었는데 그 친구가 이렇게 가르쳐준 과목은 모두 여유 있게 A를 맞았다. 나쁜 학부 성적으로 펜실바니아 주립대에 입학 허가를 받을 수 있었던 것도 회사에서의 경력과 대학원 학점을 유지 시켜준 안 종길 박사한테 힘입은 바 크다. 과학원에서의 마지막 세 달만은 석사 논문을 쓰기 위해 거의 매일 밤을 세다시피 하면서 열심히 살았다. 마침 김박사님께서 막 부임하시면서 무서운 열의를 보이시던 때라 우리는 그 에너지를 고스란히 받았다.

LG 전자 중앙연구소. 서울대와 KAIST를 거친 새 연구원에 대한 부서에서의 기대는 대단했다 그렇지만 나는 그 때까지 요령껏 살아왔던 탓에 손에 잡히는 컴퓨터 관련 지식 을 거의 갖고 있지 않았다. 자존심은 누구보다 강한데 실력은 없고. 극심한 스트레스가 밀려 왔다. 난생 처음 거의 하루 걸러 밤새워 가면서 자존심을 손상 당하지 않으려고 노력했다. 이로 인해 건강이 극도로 악화되었는데 전철역에서 10 분 정도 걸리는 거리를 걸어갈 힘이 없어서 자주 택시를 타고 집에 가곤 해야 할 정도였다. 일 년 후 부서를 옮기게 되었는데 우리 팀장이 "무슨 일을 맡겨도 잘 할 수 있는 사람"이라고 평가했다는 말을 건너 들었을 때 다소의 보람을 느꼈다. 그러나 연구원으로서 정착을 하기까지의 댓가는 매우 컸다. 거의 휴식이 없는 작업으로 학교 다닐 때의 강건한 모습을 거의 찾아볼 수 없는 자폐적인 연구원이 되어 있었다. 당시에 나를 처음 본 사람들은 대학 시절과 과학원 시절의 내 모습을 알았다면 놀랐을 것이다. 연구소 생활 3 년만에 나의 사고 체계가 좀 더 체계적일 필요가 있음을 느끼게 되었고 이제 나도 학문을 해도 되겠다는 자신이 생겼다. 유학을 결심했다. 집안에서는 서른 살의 나이에 안정된 직장을 버리고 장래가 불투명한 유학길을 나서는 것에 대해 반대 일색이었다. 과 배정 거부, 학우회장 출마 등을 할 때도 결심이 서면 일단 저질러놓고 보았듯이 회사에 사표를 냈다. 회사에서는 사표 수리 대신 조건 없는 장기 휴직을 제안했다. 조건 없는 장기 휴직은 당시의 LG 전자에는 없었던 제도였는데 내 건으로 처음 만들어진 제도였다. 결심만 섰지 준비는 전혀 안된 상태였으므로 1 년 동안 국비 장학생 시험, TOEFL, GRE General, GRE Subject, 미국 대학들 지원 서류 준비를 끝내었다. 경제적 문제를 해결하기 위해 평균 두 세 팀의 과외 지도도 병행했는데 지금 생각해보면 놀라울 정도로 타이트한 일정이었다. 시간이 매우 빠듯했으므로 그 1 년 동안 하나만 시험을 잘 못 본다거나 실수를 했으면 가능하지가 않은 일이었다. 건강은 계속 악화되었지만 아플 수가 없었다. 이 때의 경험으로 나는 아프다는 것은 최소한의 시간적 여유는 있어야 가능하다고 생각한다. 국비 장학금으로 경제적 부담을 다소 덜은 나는 아내와 아들을 데리고 한국을 떠났다. 필라델피아에서 꼬마 비행기로 갈아 타고 펜실바니아 주립대가 있는 유니버시티 파크로 가는 길에는 끝도 없이 크고 장대한 애팔래치아 산맥이 펼쳐졌다. 그 규모에 적잖이 압도되었고 한 편으로는 나의 학문적 여정에도 이러한 스케일의 변화가 있을 거라는 생각을 하면서 가벼운 사슴열을 느꼈다.

꿈을 잃어버리는 순간 사람은 늙기 시작한다. 서른 살이 될 때까지 어떻게든 열심히 하려했으나 나를 흥분시키는 꿈이 없었다. 서른이 되면서야 학문의 길을 가기로 꿈을세우고 서른 하나에 미국으로 갔다. 펜실바니아 주립대에서의 첫학기에 Thang Bui라 는 교수의 Algorithm 강의를 듣게 되었다. 베트남 출신인 그는 카네기멜론 대학이 생긴이래 최초로 복수 전공으로 4.0 만점에 4.0을 받은 졸업생이라고 한다. 졸업 때 총장이 특별 축하연을 열어 주었을 정도로 드문 일이었다고 한다. MIT 대학원에서 Leight on의 학문적 혈통을 이어받았고 160이 안되는 작은 키에 강의실을 울리는 카랑카랑한 목소리, 이미 전산학과의 명강의로 소문난 그의 명성을 듣고 들어간지라 그의 작은 키 는 단점이 아니라 오히려 그의 지적 능력을 더 돋보이게 하는 것 같았다. 그의 클래스 에서 나는 생애 최고의 한 학기를 보냈다. 깊게 생각하는 기쁨, 깊게 생각할 수 있는 능력이 자라고 있다는 뿌듯함은 동굴을 뛰쳐 나온 나의 결정이 옳았음을 확인시켜 주었다. 두 번째 학기에도 그의 강의를 듣게 되었는데 첫 학기 만큼이나 큰 지적 성장을 이루었다. 일년 만에 나는 이제 시간만 충분히 주어지면 어떠한 문제든 해결할 수 있다는 자신감이 생겼다. 그의 가이드에 따라 수행한 그래프 분할 프로젝트에서 공개 벤치마킹 테스트를 통해 우리는 그 때까지 알려진 어떤 방법들보다도 좋은 결과를 내었고 그것이 나의 첫 논문이 되었다. 누가 먼저랄 것 없이 우리는 자연스럽게 지도 교수와 학생으로 인연을 맺게 되었다. Bui가 그 곳에서 두 시간 걸리는 다른 캠퍼스로 옮기는 것이결정이 된 상태에서도 그를 떠날 수가 없었다. 그 해는 한국에 전화만 하면 내가 세계 기록을 깼다는 것을 자랑하기 바빴다. 두 번째 학기에는 일주일에 최소한 사흘은 두세 시간만 자고 버텼다. 낮잠도 거의 자지 않았다. 유학 오기 전에 약하기만 했던 나의 건강은 미국에서의 한 학기 후에는 강체로 변했다. 꿈이 하루의 생활을 이끌어가게 되니까 육체적으로 좀 무리를 해도 오히려 더 건강해졌다. 아이디어는 계속 노트에 쌓이고 시간은 제한되어 있고. 어디에 가건 벌여 놓은 연구의 결과가 궁금해 빨리 학교에 갈 생각만 들었다. 아내는 내가 가끔 주말에 집에 있을 때에는 학교에 가고 싶어서 안절부절을 못한다고 했다. 전형적인 일중독 증세였다. 그 즈음의 내게 일은 휴식이고 여가는 오히려 스트레스였다. 심지어 감기 몸살이 걸리어도 집에서 쉬면 낫지를 않는데 학교에 가서 일하면 깨끗이 낫곤 했다. 한 번은 동생이 한국에서 놀러 와서 집에서 다섯 시간 걸리는 나이아가라 폭포에 놀러 가게 되었는데 출발을 앞두고 갑자기 아이디어가 하나 떠올라 집에서 몇 시간 기다리게 해놓고 학교로 가 프로그램을 해서 돌려놓고 갔다. 밤 늦게 폭포 구경을 마치고 동네로 돌아오니까 아침 7시였다. 차 안에는 아내와 아들, 그리고 동생이 곤히 자고 있었다. 밤새워 운전을 해서 졸음이 쏟아졌지만 전날 돌려놓은 프로그램의 결과가 궁금해서 견딜 수 없었다. 자고 있는 식구들을 태운 채 연구실 앞에 차를 대고 급히 들어가서 결과를 보고는 깜짝 놀랐다. 그 동안 결과가 제대로 나오지 않던 어려운 그래프들에 대해서 수십 배 좋은 결과가 거짓말같이 눈앞에 펼쳐져 있었던 것이다. 이것을 보완해서 체계적으로 설명하는 것이 첫 저널 논문이 되었고 그것이 씨앗이 되어 이후 3 개월에 한 편 꼴로 새 논문을 만들어 내었다. 입학한 지 2 년 3 개월 정도 지나니까 내가 원하는 때에 졸업해도 좋다는 지도 교수의 허락이 떨어졌다. 그를 만나러 포드 템포 자동차를 몰고 펜실바니아의 초원을 가로지르던 기분은 지금도 생생하다. 이 넓은 땅에 와서 아주 훌륭히 해내었다는 자부심에 달리는 차 안에서 큰 소리로 혼자 노래를 부르곤 했다. 펜실바니아 시절은 자부심, 흥분, 기대감, 장래에 대한 염려 등이 혼합된 복잡한 시절이어서 지금도 어디선가 넓은 초원을 만나거나 카펫 먼지 내음을 맡으면 묘한 기분에 사로잡히곤 한다. 마치 가랑비에 흙 젖는 냄새가 후각을 자극하면 어린 시절 생각이 나듯이.

박사학위를 받은 후에는 UCLA에서 post-doc으로 일하게 되었다. UCLA는 과학원에서 학문적 씨앗을 심어주신 김 진형 박사님께서 공부하신 곳이라 낯설지 않았다. 묘하게도 박사님의 지도 교수였던 Judea Pearl의 옆방에 사무실을 얻게 되었다. 한국에서 바로 LA로 온 사람들은 사람들이 너무 친절하다고들 얘기하는데 펜실바니아의 시골에 살다가 LA로 간 우리 식구들에게는 상대적으로 매우 불친절하고 지저분한 도시였다. LA에서의 생활은 미국 교포들의 생활을 관찰할 수 있는 기회가 되었다. 많은 교포들이 미국 속에 있지만 한인 사회의 바깥에 나가면 바보가 될 정도로 고립된 삶을 살고 있다. 심지어 수십 년을 미국에 살았어도 영어를 거의 못하는 것이 별로 이상한 일이 아닐 정도다. 미국이라는 거대한 시장을 제대로 이용하지 못하고 한인들만 상대로 장사들을 하다 보니 지나친 경쟁을 유발하게 되고 정직하지 못한 관행을 미국에서 재현한다. 미국의 문화를 어릴 때부터 접하고 이해하지 못하는 사람들은 끝까지 2 등 국민으로 남게 되는 한계를 갖는다. Post-doc 시절에 두어 번 한국의 대학에 지원을 했는데 쓴 잔을 마셨다.

96년 LG 반도체에 복직을 하려고 임원을 만났을 때 첫 질문은 왜 학교를 가지 않고 LG로 돌아오려 하느냐는 것이었다. 나는 "지금까지 두어군데 학교에 지원해서 실패한 적이 있는데 같이 일할만한 대학원생이 없는 학교에 가는 것보다는 기업체에서 연구하는 것이 낫다고 생각합니다." 하고 여전히 좋은 학교라면 기업체보다 선호한다는 나의 생각을 간접적으로 밝혔다. 확률 게임이었다. 회사로서는 내가 원하는 학교에 갈 수 있는 확률을 나름대로 짐작해보고 배팅을 했을 것이다. LG는 나의 은인이다. 귀국해서 고작 일 년 반 만에 학교로 옮기게 되었는데도 유학 기간까지 포함해서 12년 7개월이란 근속년수를 군말없이 고스란히 인정해 주었다. LG에서의 일 년 반동안 나는 VLSI 회로의 분할에 관하여 또 한 번 기존의 어떤 방법들보다 좋은 결과를 내는 유전 알고리즘을 개발할 수 있었는데 이러한 것은 LG의 연구 환경에 힘입은 바 크다. 21세기를 이끌어갈 기업을 꼽는다면 나는 스스럼없이 LG를 꼽는다. 느슨한 듯이 보이는 가운데 창조적 아이디어를 낼 수 있는 환경을 갖춘 연구 풍토를 가졌다. 지금도 나의 옛 부서에서는 체육대회나 송년회 등에 나를 실원처럼 초청해주고 나도 가끔 LG를 방문해서 내가 도울 수 있는 일이 있으면 무보수로 돕고 있는데 그것은 선택의 문제가 아니라 내가 LG에서 받은 은혜에 대한 의무에 해당한다. 나는 LG의 문화를 살아 있는 실체처럼 느끼고 있으며 내 청년기의 5 년을 알차게 채워준 LG를 위해 전도사의 역할을 자처할 것이다.

미국에서 자신만만하던 내가 post-doc 시절에 한국의 대학에 두어 번 떨어지고 나니까 다소 초조해지기도 했다. 최종적으로 오퍼를 받는 사람들의 면면을 보니까 공정한 게임이었다. 물론 사람들이 하는 일이라 이견이 있을 수 있지만 적어도 내가 떨어진 부분에서는 깨끗이 인정할 수 있었다. 패인은 간명했다. 저널 논문의 개수가 가장 중요한 요소였다. 한국에서는 (KAIST와 포항공대를 빼고는) 미국과 달리 conference 논문을 거의 평가해주지 않아 상당한 양의 conference 논문들은 거의 휴지였다. LG로 복직한 후에는 저녁 6시까지는 회사일을 하고 6시부터 10시 무렵까지는 이미 제출해 놓은 저널 논문들에 대한 빠른 회신을 독촉하고 논문을 쓰는 데 투자하여 저널 논문의 양을 늘려 시급하게 한국적인 기준을 맞추려고 노력하였다. 특히 저널의 스페셜 이슈는 경쟁은 심하지만 단시간에 논문의 수를 늘이는 데는 최고이다. 97년 초여름이 되니까 보내 놓은 저널 논문들이 여러 개 한꺼번에 게제 확정이 되면서 이제는 한국적인 기준으로도 어디에 가든 승산이 많은 이력서가 되었다고 판단이 되었다. 상당히 말하기 조심스러운 부분이지만 실제로 이 해에 서울대 이외에도 몇 군데 더 지원을 했는데 진행 상태들로 보아 도중에 취소시키지 않았으면 모두 다 오퍼를 받을 것 같은 분위기라고 느꼈다. 내가 자리를 잡지 못하고 지내는 동안 주위 사람들이 나름대로 충고들을 해 주었는데 가장 듣기 난처한 말이 내정설과 그물론이었다. 미리 짜놓고 하는 게임이라든가 평소에 다니면서 '눈도장'을 찍어 놓아야 한다는 식이 많았고 심지어 어떤 사람은 논문이 한 개나 스무 개나 그게 그거고 눈도장이 더 중요하다고 말하기도 했다. 어느 학교의 경우 미리 찾아가서 시간을 좀 투자해 보았는데 그렇게 불쾌할 수가 없었다. 우선 내가 찾아가는 목적 자체가 잘 보이려고 가는 것이었으므로 몸은 오그라들었고 생체 리듬은 엉망이 되어버렸다. 극히 조심을 하면서 한 사람을 만나고 나오면 몸에 두드러기가 나는 듯 했다. 그 짓을 하며 돌아다니느니 논문을 한 편이라도 더 쓰는 정공법을 택하기로 했다. 나는 자신있게 말할 수 있다. 학회 같은 곳에서의 자연스런 대면은 권장할만하지만 모자라는 조건으로 사람들을 찾아 다니는 것보다 조건을 갖춘 뒤에 원서 내어놓고 대면하는 것이 훨씬 효율적이라고. 질적 평가 방법이 외국에 비해 다소 미흡하지만 요즈음의 학계는 바깥에서 생각하는 것보다 훨씬 합리적이고 공정하게 사람을 뽑는다.

아놀드 토인비는 그의 자서전에서 자신은 일이 곧 휴식이라서 따로 휴식을 취할 필요가 없다고 쓰고 있다. 내가 그의 자서전을 읽은 것은 학부 때였는데 '공부 = 고통'이었던 당시에 그것은 나에게는 꿈같이 부러운 것이었다. 동경의 강도가 높으면 언젠가는 이루어진다는 말이 있지만 그것은 당시의 나에게는 이루어질 수 없는 꿈이었다. 93년 어느 봄날 펜실바니아 주립대 도서관에서 문득 10여년 전에 그렇게 부러워 마지 않던 '일이 곧 휴식'인 상태에 내가 와 있음을 발견하고는 감격스러워서 코끝이 아팠던 적이 있다. 토인비는 10 년 동안 나의 잠재 의식 속에서 나의 꿈을 돕고 있었다. 플라톤의 <공화국>에는 깊은 동굴에 살면서 편안해진 나머지 한 번도 밖에 나가보지 않고 그것을 두려워하는 사람들에 관한 비유가 있다. 사람이 선택을 할 때는 위험 부담이라든지 현재의 편안함 같은 것 때문에 자꾸 지금껏 익숙한 동굴 속에 머무르려고 한다. 이러한 관점에서 보면 나는 크게 세 번 정도 동굴을 탈출하는 모험을 했다고 볼 수 있다. 과 배정 거부, 학우회장 출마, 유학 결심이 대표적인 나의 탈출이었다고 볼 수 있다. 그 경험들은 눈앞의 손해를 감수하면서 세상을 다른 시각으로 보게 해주었다. 지금까지 나는 지름길을 택하지 못하고 먼 길을 돌아서 이곳까지 왔다. 지금 돌아보면 그 과정에 말할 수 없는 애착을 느낀다. 그렇지만 학문의 꿈을 갖고 난 서른 살부터의 지난 7 년을 다시 살 자신은 없다.

고대로부터 뉴우튼 이전까지의 근 이천 년 동안 서구 사회를 지배하던 사상은 아리스토텔레스의 과학관이었다. 즉 물질을 구성하고 있는 네 원소인 흙, 물, 불, 공기는 각기 자기 고향으로 돌아가려고 하는 '의지'를 갖고 있다고 보았다. 사과의 자유낙하는 흙 성분인 사과가 고향인 흙으로 돌아가려고 하는 의지 때문이라는 식이다. 데카르트-뉴우튼 이후의 서구 사회는 아리스토텔레스의 과학관에서 탈피하여 기계론적 과학관으로 옮겨 가는데 이 시기는 초기 조건에 의해 그 결과가 완벽하게 결정되는 결정론적인 세계관이 지배하게 된다. 뉴우튼적 세계관의 또 한 가지 특징은 주체와 객체가 명확히 구분되는 것이다. 객체는 주체의 상태에 관계없이 항상 독립적이고 일정한 법칙을 갖는다. 20세기 초 아인쉬타인이 절대 시공간의 개념을 깨뜨리고 하이젠베르그가 아원자 수준에서의 관찰의 객관성에 대한 물리학의 뿌리 깊은 믿음을 깨뜨리면서 새로운 세계관이 태동되었다. 그 때부터 현재까지 이 새로운 세계관으로의 긴 이동 과정에 있다. 이 새로운 세계관에서는 주체와 객체의 구별이 모호해지고 관찰이란 항상 주관적인 것이 된다. 독립적인 개체보다는 관계가 중요성을 갖는다. 컴퓨터 과학에서도 이러한 세계관의 변화가 감지된다. 폰 노이만 머신은 뉴우튼적 세계관의 정수이다. 주체인 프로그램은 객체인 데이터를 독립적이고 결정론적으로 (deterministically) 처리한다. 그러나 새로운 방법들에서는 프로그램과 데이터의 구별이 다소 모호해진다. 프로그램이 프로그램을 만들어내는 유전 프로그래밍이나 스스로 그 기능을 진화시켜 가는 진화하는 하드웨어 등의 연구 분야가 대표적인 예들이다. 우리 연구실에서는 그래프 이론이나 최적화 문제와 관련하여 이러한 연구를 하고 있다. 이것은 요즈음 경제학, 물리학, 화학 등 광범위한 분야에 걸쳐 일어나고 있는 '신과학 운동'과도 연관이 있다. 이제 나는 좀 더 구체적인 꿈을 하나 세운다. 사랑스러운 나의 학생들과 함께 이 새로이 열리는 세계를 제대로 탐험하고픈 꿈.

*이글의 출처는 http://ai.kaist.ac.kr/Resource/Annuals/1997/3old-2.html 입니다.

'CS 전공 > 생각?' 카테고리의 다른 글

이 학회는 대체...  (2) 2008.06.26
IEEE TKDE 리뷰  (3) 2008.06.23
몰입적 사고  (0) 2007.12.11
좋은 연구를 위해 필요한 것들..  (1) 2007.11.20
"we regret to inform you that ~ "  (2) 2007.11.13
Posted by Bart
CS 전공/책, 자료들2008. 3. 25. 17:41

Readings in Database Systems, Third Edition

Edited by

Michael Stonebraker
University of California, Berkeley

Joseph M. Hellerstein
University of California, Berkeley

CHAPTER 1 The Roots

A Relational Model of Data for Large Shared Data Banks, CACM 13(6) 1970
Edgar F. Codd
System R: Relational Approach to Database Management, TODS 1(2) 1976
Morton M. Astrahan, Mike W. Blasgen, Donald D. Chamberlin, Kapali P. Eswaran, Jim Gray,
Patricia P. Griffiths, W. Frank King III, Raymond A. Lorie, Paul R. McJones, James W. Mehl,
Gianfranco R. Putzolu, Irving L. Traiger, Bradford W. Wade, and Vera Watson
The Design and Implementation of INGRES, TODS 1(3) 1976
Michael Stonebraker, Eugene Wong, Peter Kreps, and Gerald Held
A History and Evaluation of System R, CACM 24(10) 1981
Donald D. Chamberlin, Morton M. Astrahan, Mike W. Blasgen, Jim Gray, W. Frank King III,
Bruce G. Lindsay, Raymond A. Lorie, James W. Mehl, Thomas G. Price, Gianfranco R. Putzolu,
Patricia G. Selinger, Mario Schkolnick, Donald R. Slutz, Irving L. Traiger, Bradford W. Wade,
and Robert A. Yost
Retrospection on a Database System, TODS 5(2) 1980
Michael Stonebraker

CHAPTER 2 Relational Implementation Techniques

Operating System Support for Database Management, Database Engineering Bulletin 9(3) 1986
Michael Stonebraker
R-Trees: A Dynamic Index Structure for Spacial Searching, SIGMOD 1984
Antonin Guttman
Generalized Search Trees for Database Systems, VLDB 1995
Joseph M. Hellerstein, Jeffrey F. Naughton, and Avi Pfeffer
An Evaluation of Buffer Management Strategies for Relational Database Systems, Algorithmica 1(3) 1986
Hong-Tai Chou and David J. DeWitt
Join Processing in Database Systems with Large Main Memories, TODS 11(3) 1986
Leonard D. Shapiro
Access Path Selection in a Relational Database Management System, SIGMOD 1979
Patricia G. Selinger, Morton M. Astrahan, Donald D. Chamberlin, Raymond A. Lorie, and Thomas G. Price
Query Rewrite Optimization Rules in IBM DB2 Universal Database
T. Y. C. Leung, H. Pirahesh, P. Seshadri, and J. Hellerstein

CHAPTER 3 Transaction Management

Granularity of Locks and Degrees of Consistency in a Shared Data Base, IFIP Working Conference on Modelling in Data Base Management Systems 1976
Jim Gray, Raymond A. Lorie, Gianfranco R. Putzolu, and Irving L. Traiger
On Optimistic Methods for Concurrency Control, TODS 6(2) 1981
H. T. Kung and John T. Robinson
Concurrency Control Performance Modeling: Alternatives and Implications, TODS 12(4) 1987
Rakesh Agrawal, Michael J. Carey, and Miron Livny
Efficient Locking for Concurrent Operations on B-Trees, TODS 6(4) 1981
Philip L. Lehman and S. Bing Yao
Principles of Transaction-Oriented Database Recovery, ACM Computing Surveys 15(4) 1983
Theo Härder, Andreas Reuter
ARIES: A Transaction Recovery Method Supporting Fine-Granularity Locking and Partial Rollbacks Using Write-Ahead Logging, TODS 17(1) 1992
C. Mohan, Donald J. Haderle, Bruce G. Lindsay, Hamid Pirahesh, and Peter M. Schwarz
The Design of a POSTGRES Storage System, VLDB 1987
Michael Stonebraker
The ConTract Model, Database Transaction Models for Advanced Applications 1992
Helmut Wachter and Andreas Reuter

CHAPTER 4 Distributed Database System

R*: An Overview of the Archtecture, JCDKB 1982
R. Williams, Dean Daniels, Laura M. Haas, George Lapis, Bruce G. Lindsay,
Pui Ng, Ron Obermarck, Patricia G. Selinger, Adrian Walker, Paul F. Wilms,
and Robert A. Yost
R* Optimizer Validation and Performance Evaluation for Distributed Queries, VLDB 1986
Lothar F. Mackert and Guy M. Lohman
Transaction Management in the R* Distributed Database Management System, TODS 11(4) 1986
C. Mohan, Bruce G. Lindsay, and Ron Obermarck
The Dangers of Replication and a Solution, SIGMOD 1996
Jim Gray, Pat Helland, Patrick E. O'Neil, and Dennis Shasha
Mariposa: A Wide-Area Distributed Database System, VLDB Journal 5(1) 1996
Michael Stonebraker, Paul M. Aoki, Witold Litwin, Avi Pfeffer, Adam Sah,
Jeff Sidell, Carl Staelin, and Andrew Yu

CHAPTER 5 Parallel Database System

Parallel Database Systems: The Future of High Performance Database Systems, CACM 35(6) 1992
David J. DeWitt and Jim Gray
The Gamma Database Machine Project, TKDE 2(1) 1990
David J. DeWitt, Shahram Ghandeharizadeh, Donovan A. Schneider, Allan Bricker, Hui-I Hsiao,
and Rick Rasmussen
AlphaSort: A Cache-Sensitive Parallel External Sort, VLDB Journal 4(4) 1995
Chris Nyberg, Tom Barclay, Zarka Cvetanovic, Jim Gray, and David B. Lomet
Coloring Away Communication in Parallel Query Optimization, VLDB 1995
Waqar Hasan and Rajeev Motwani

CHAPTER 6 Objects in Databases

The ObjectStore Database System, CACM 34(10) 1991
Charles Lamb, Gordon Landis, Jack A. Orenstein, and Danel Weinreb
QuickStore: A High Performance Mapped Object Store, SIGMOD 1994
Seth J. White and David J. DeWitt
Client-Server Caching Revisited, IWDOM 1992 (SIGMOD 1991)
Michael J. Franklin and Michael J. Carey
The Database Language GEM, SIGMOD 1983
Carlo Zaniolo
Inclusion of New Types in Relational Data Base System, ICDE 1986
Michael Stonebraker
The POSTGRES Next-Generation Database Management System, CACM 34(10) 1991
Michael Stonebraker and Greg Kemnitz

CHAPTER 7 Data Analysis and Decision Support

Improved Query Performance with Variant Indexes, SIGMOD 1997
Patrick E. O'Neil and Dallan Quass
Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals, Data Mining and Knowledge Discovery 1(1) 1997 (ICDE 1996)
Jim Gray, Surajit Chaudhuri, Adam Bosworth, Andrew Layman, Don Reichart,
Murali Venkatrao, Frank Pellow, and Hamid Pirahesh
An Array-Based Algorithm for Simultaneous Multidimensional Aggregates, SIGMOD 1997
Yihong Zhao, Prasad Deshpande, and Jeffrey F. Naughton
Fast Algorithms for Mining Association Rules in Large Databases, VLDB 1994
Rakesh Agrawal and Ramakrishnan Srikant
Online Aggregation, SIGMOD 1997
Joseph M. Hellerstein, Peter J. Haas, and Helen J. Wang

CHAPTER 8 Benchmarking Database Systems

A Measure of Transaction Processing Power
Anon et al.
The OO7 Benchmark, SIGMOD 1993
Michael J. Carey, David J. DeWitt, and Jeffrey F. Naughton
The Sequoia 2000 Storage Benchmark, SIGMOD 1993
Michael Stonebraker, James Frew, Kenn Gardels, and Jeff Meredith

CHAPTER 9 Vision Statements

Database Metatheory: Asking and Big Queries, PODS 1995
Christos H. Papadimitriou
Database Systems: Achievements and Opportunities, CACM 34(10) 1991
Abraham Silberschatz, Michael Stonebraker, and Jeffrey D. Ullman
Strategic Directions in Database Systems - Breaking Out of the Box, ACM Computing Surveys 28(4) 1996
Abraham Silberschatz and Stanley B. Zdonik

'CS 전공 > 책, 자료들' 카테고리의 다른 글

Introductory or Survey Papers  (0) 2009.09.12
Handbook of Technical Writing  (3) 2008.09.06
Readings in Information Retrieval  (0) 2008.03.25
Jennifer Widom 강의 자료  (0) 2008.02.22
웹 2.0 시대의 기회 시맨틱 웹  (0) 2007.11.12
Posted by Bart
CS 전공/책, 자료들2008. 3. 25. 17:40

Readings in Information Retrieval

Edited by

Karen Sparck Jones
University of Cambridge

Peter Willett
University of Sheffield

Chapter 1 Overall Introduction

Chapter 2 History

The Thesaurus Approach to Information Retrieval
T. Joyce and R. M. Needham
The Automatic Derivation of Information Retrieval Encodements from Machine-Readable Texts
H. P. Luhn
Indexing and Abstracting by Association. Part I
L. B. Doyle
On Relevance, Probabilistic Indexing and Information Retrieval
M. E. Maron and J. L. Kuhns
The Cranfield Tests on Index Language Devices
C. W. Cleverdon
Computer Evaluation of Indexing and Text Processing, JACM 15(1) 1968
Gerard Salton and M. E. Lesk

Chapter 3 Key Concepts

The Concept of "Aboutness" in Subject Indexing
W. J. Hutchins
The Testing of Index Language Devices
C. W. Cleverdon and J. Mills
Thesaurus
D. J. Foskett
Using Problem Structures for Driving Human-Computer Dialogues
P. J. Daniels, H. M. Brooks, and N. J. Belkin
Relevance: A Review of and a Framework for Thinking
T. Saracevic

Chapter 4 Evaluation

A Study of Information Seeking and Retreving. I. Background and Methodology
T. Saracevic, P. Kantor, A. Y. Chamis, and D. Trivison
On Selecting a Measure of Retrieval Effectiveness. Part I
W. S. Cooper
The Pragmatics of Information Retrieval Experimentation, Revisited
J. Tague-Sutcliffe
Presenting Results of Experimental Retrieval Comparisons
E. M. Keen
MEDLARS: Report on the Evaluation of Its Operating Efficiency
F. W. Lancaster
The TREC Conferences
D. K. Harman

Chapter 5 Models

Getting Beyond Boole
W. S. Cooper
A Non-Classical Logic for Information Retrieval
C. J. van Rijsbergen
A Vector Space Model for Automatic Indexing, CACM 18(11) 1975
Gerard Salton, A. Wong, and C. S. Yang
The Probability Ranking Principle in IR
S. E. Robertson
Inference Networks for Document Retrieval
H. Turtle and W. B. Croft
ASK for Information Retrieval. Part I. Background and Theory
N. J. Belkin, R. N. Oddy, and H. M. Brooks

Chapter 6 Techniques

An Algorithm for Suffix Stripping
M. F. Porter
Robust Text Processing in Automated Information Retrieval
T. Strzalkowski
Term-Weighting Approaches in Automatic Text Retrieval, Retrieval., Information Processing and Management 24(5) 1988
Gerard Salton and C. Buckley
Search Term Relevance Weighting Given Little Relevance Information
K. Sparck Jones
Using Probabilistic Models of Document Retrieval without Relevance Information
W. B. Croft and D. J. Harper
Some Simple Effective Approximations to the 2-Poisson Model for Probabilistic Weighted Retrieval
S. E. Robertson and S. Walker
Improving Retrieval Performance by Relevance Feedback, JASIS 41(4) 1990
Gerard Salton and C. Buckley
Using Interdocument Similarity Information in Document Retrieval Systems
A. Griffiths, H. C. Luckhurst, and P. Willett

Chapter 7 Systems

The SMART and SIRE Experimental Retrieval Systems
Gerard Salton and M. J. McGill
Architecture of an Expert System for Composite Document Analysis, representation, and Retrieval
E. A. Fox and R. K. France
User-Friendly Systems Instead of User-Friendly Front-Ends
D. K. Harman
The Okapi Online Catalogue Research Projects
S. Walker
TREC and TIPSTER Experiments with INQUERY
J. P. Callan, W. B. Croft, and J. S. Broglio
RUBRIC: A System for Rule-Based Information Retrieval
B. P. McCune, R. M. Tong, and J. Dean
TARGET and FREESTYLE: DIALOG and Mead Join the Relevance Ranks
C. Tenopir and P. Cahn

Chapter 8 Extensions

A Hypertext Environment for Interacting with Large Databases
M. Agosti, G. Gradenigo, and P. G. Marchetti
Automatic Analysis, theme Generation, and Summarization of Machine-Readable Texts
Gerard Salton, J. Allan, C. Buckley, and A. Singhal
Querying Across Languages: A Dictionary-Based Approach to Multilingual Information Retrieval
D. A. Hull and G. Grefenstette
Experiments in Spoken Document Retrieval
K. Sparck Jones, G. J. F. Jones, J. T. Foote, and S. J. Young
Video Parsing, Retrieval and Browsing: An Integrated and Content-Based Solution
H. J. Zhang, C. Y. low, S. W. Smoliar, and J. H. Wu
The Automatic Indexing System AIR/PHYS - From Research to Application
P. Biebricher, N. Fuhr, G. Lustig, M. Schwantner, and G. Knorz
A News Story Categorization System
P. J. Hayes, L. E. Knecht, and M. J. Cellio
Conceptual Information Extraction and Retrieval from Natural Language Input
L. F. Rau
A Production Rule System for Message Summarization
E. Marsh, H. Hamburger, and R. Grishman
The Application of Linguistic Processing to Automatic Abstract Generation
F. C. Johnson, C. D. Paice, W. J. Black, and A. P. Neal

Chapter 9 Envoi

Historical Note: Information Retrieval and the Future of an Illusion
D. R. Swanson
Posted by Bart
CS 전공/리뷰2008. 3. 25. 17:38
ASU의 Yi Chen 교수의 대학원 강의 syllabus.
Data on the Web이란 타이틀을 붙였지만, 거의 다가 XML 포맷을 이용한 데이터 처리에 관한 부분이다. 특이하게 강의 자료도 ppt로 올려놓았다. 대부분 copyright 문제로 pdf로 올리던가 아니면 restricted access로 해놓는 교수들이 많은데....
관심가는 부분이 많아서 직접 들어보고 싶다..
 

CSE 591: Data on the Web

Fall 2007
Instructor:   Yi Chen     ( yi at asu.edu )
Time:  
Monday & Wednesday 1:40PM - 2:55PM
Location:   BYAC 190
Office hours:   Monday 4:30-5:20 , Wednesday 12:30-1:30, or by appointment,  BY 562

TA: Yu Huang (yu.huang.1@asu.edu)

Office hours: TTh: 1-2pm, or by appointment, BY 417AA

 

Description & Objective   Format    Topics and Schedule    Project    Grading



Description & Objective


This course will discuss the recent advances in database research. Traditionally, a database is thought of as a relational database system (or an object-oriented database system). There are several assumptions in a traditional database. First, data conforms to a fixed schema. Second, data is locally stored, clean and consistent. Third, data can be queried using a structured query language (for example, SQL). As web data continues to grow at an explosive pace, we are facing more and more data that does not fit into a traditional database. For example, web data obtained from independent sources requires a flexible data representation format such as XML. Data obtained from integration or extracted from text documents may be error prone and inconsistent. A user may not be able to formulate a precise query using a structured query language. Furthermore, in publish subscribe systems and sensor networks, the assumption that data is locally stored has been discarded. As we relax these traditional database assumptions, new research challenges arise. In this course, we will explore in depth the research problems on semi-structured data management and its applications.

What You Can Get Out of the Course
The goals of this course are to gain a better understanding of the current research topics in databases, especially how to store, query, share, and interpret data across the Internet and World-Wide Web. You will also get opportunities to learn skills to survey, analyze and criticize research papers, obtain hands-on experience on database projects and participate research with other students.

Prerequisites :
Background on relational databases and programming ability in Java, C, or C# are required.  

 



Format

The course is organized around several research topics. For each topic, we read and discuss the selected papers in the current literature . There will be no required textbooks for this class though you can refer to the following book for additional reading.

  • Data on the Web . Morgan Kaufmann. S. Abiteboul and P. Buneman and D. Suciu


The course consists of  two lectures a week, class discussions, paper reading and reviews, and a project. Your responsibilities include:

  • Attend all the classes on time.
  • Participate actively in class discussions.
  • Select up to six papers from the reading list which are from at least three different areas. For each selected paper, write a one-page review and submit it before the paper is discussed in class. The top 5 scores on reviews will be counted in grades.
  • Do exercises.
  • Implement a research-oriented course project by group.
  • Think up wild and crazy ideas and share them with us.

Topics and Schedule

(The schedule is subject to change. Please check it frequently.)

Course Overview ( 8/20 )


XML Introduction   (1 week)

8/22, 8/27: XML data model, DOM and SAX interface as specified in  W3C .

References: (1) Buneman et al Keys for XML WWW10.
                     
(2) Arenas & Libkin A Normal Form for XML Documents PODS 02

Searching XML Data using Keywords  (2 weeks)
8/29 Cohen et al.
XSearch: A Semantic Search Engine for XML   VLDB 03
9/5    Li et al. Schema-Free XQuery VLDB 04
9/10  Liu and Chen,
Identifying Meaningful Return Information for XML Keyword Search . SIGMOD07
9/12 , 9/17  Guo et al. XRANK: ranked keyword search on XML documents Sigmod 03

         Reference: Brin and Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine .
XML Introduction   (continued. 1 week)
9/19, 9/24, 9/26 XML query languages XPath and XQuery language as specified in  W3C

 

Indexing and Querying Stored XML Data  (2 weeks)

10/1   Kaushik et al Exploiting Local Similarity for Indexing Paths in Graph-Structured Data , ICDE 02

10/3   Shanmugasundaram et al Relational Databases for Querying XML Documents: Limitations and Opportunities .  VLDB 99.
10/8   Zhang et al On Supporting Containment Queries in Relational Database Management Systems SIGMOD 01
         Reference: Bruno et al Holistic Twig Joins: Optimal XML Pattern Matching SIGMOD 02

10/10 Chen et al BLAS : An Efficient XPath Processing System SIGMOD 04

10/15, 10/17, 10/22 Project Midterm Presentation (1.5 week)

Every group will make a 20-minute presentation.

 

Querying XML Streams (1 week)
10/24  Altinel and Franklin
Efficient Filtering of XML Documents for Selective Dissemination of Information , VLDB 00
10/29  Chen et al
An Efficient XPath Query Processor for XML Streams ICDE 06
          Reference: Carabus et al. Extending XQuery with Window Functions . VLDB 07

Information Extraction, Integration and Probabilistic Databases (1.5 weeks)
10/31  Gupta & Sarawagi. Creating Probabilistic Databases from Information Extraction Models . VLDB 06
          Reference: Chu et al. Relational Approach to Incrementally Extracting and Querying Structure in Unstructured Data . VLDB 07.

    Reference: Bird et al. Designing and Evaluating an XPath Dialect for Linguistic Queries .”  ICDE 06.

11/5    Dalvi & Suciu Efficient Query Evaluation on Probabilistic Databases VLDB 04
11/7    Fuxman et al. ConQuer: Efficient Management of Inconsistent Databases. SIGMOD 05

Workflow Management and Data Provenance (1 week)
11/14 Buneman et al Provenance Management in Curated Databases SIGMOD 06
11/19 Beeri et al. Querying Business Processes . VLDB 2006
         Reference: Shankar et al Integrating databases and workflow systems , SIGMOD Record 05

11/21, 11/26, 11/28 VLDB 07 Paper Potpourri (1 week)

Every student will make a 5 minute presentation of one of VLDB 07 papers. Please choose and sign up the paper with TA

 

11/28, 12/3 Student Project Demo  (1 week)

Every group will make a 10-minute demo.

Project

Sample project topics will be discussed in the class. You can propose your own project that is closely related to the course and discuss it with the instructor first. The  project consists of three parts. First, you need to submit a half-page project proposal. Next, you need to give a midterm project presentation/report stating the problem, existing literature and proposed algorithm. Finally, you need to demo the project to the class and submit a project report detailing the proposed solution.



Grading

    Class attendance and discussion: 15%  
    Paper Reviews: 20%
    Exercises: 25%  
    Project midterm report: 15%
    Project final report: 25%

'CS 전공 > 리뷰' 카테고리의 다른 글

DBMS on New Hardware  (9) 2009.11.22
Memory Hierarchy, Memory Wall and Memory Mountain  (10) 2009.09.28
최근의 DB 연구 경향  (1) 2009.08.20
Claremont Report  (0) 2008.09.10
Queyring Large XML data repositories  (0) 2007.11.28
Posted by Bart
CS 전공/논문 쓰기2008. 3. 15. 16:10

사용자 삽입 이미지

JabRef Reference Manager

이번에 쓰기로 한 놈은 JabRef라는 GPL 라이센스의 레퍼런스 매니저이다.

열람하고, 인용할 논문들의 수가 많아짐에 따라, 예전에는 구글 데스크탑 설치하고,  파일 이름을 논문제목-학회-년도로 부여하고 검색을 수행하였다.
구글 데스크탑이 PDF 파일에 대한 내용 검색도 되기 때문에, 또 관련된 논문들 찾는데도 (사실은 잊고 있던) 솔찬히 도움이 되었다. 그리고, 논문 내용 정리는 이미지 컷과 객체 참조가 자유로운 MS의 OneNote로 하고....

하지만, 문제는 나중에 논문을 쓰려고 보니, 학회마다 제각각인 인용 스타일....

IEEE,ACM, LNCS 전부다 reference 스타일이 다 틀리고, 또 논문 쓸 때마다 reference list를 작성하느라 아주 귀찮아지기 시작했다.

그러던 차에 EndNote라는 유명한 Reference Manager가 있는 것을 알게 되고, 이게 상용이라 돈주고 사야한다는 걸 알게 되었다.  뭐 과제비로 사자고 하면 되겠지만, 또 보니 Vista용은 아직 나오지 않은 것 같다.

대체를 찾다가, 기억 저편에 놓고 있던 이 JabRef를 다시 깔아서 정리하기 시작했다. JabRef는 Java로 작성된 SW라 Vista에서도 동작이 가능하겠지..

일단 정리된 reference는 나중에 LaTeX 에디터로 보내서 쉽게 reference List를 만들 수 있게 해준다. 내가 사용하는 WinEdt+MikTek 조합에서 잘 물려 돌아간다.
각 reference에 대해서 논문 파일이나 ppt 파일, DOI 정보 등도 여러 개를 입력 시킬 수 있다.

아쉬운 것은 요새 많이 사용하는 google scholar에 대한 web search를 지원하지 못한다.
어차피 google scholar가 BibTex를 지원하기 때문에 UI 상에서 google scholar에 직접 질의하고 그 결과를 bibtext로 가져오게 하면, 노가다성이 일이 줄텐데.. 쯧.

또 한가지 아쉬운 것은 reference에 대한 review 란이 단순 텍스트 만을 지원한다는 점이 많이 아쉽다. OneNote같이 객체 참조가 자유로우면 훨씬 더 좋을 텐데, 보니, bibTex의 한 태그로 review 의 텍스트 값들을 기록한다. 즉 텍스트 이외에는 기록이 안된다는... 저장 포맷의 변경이 없는 한 이부분은 불가능할 것 같다....

아... JabRef + OneNote+ Google Scholar, IEEE Explorer, ACM DL, Citeseer 검색 이면 좋으련만....

Posted by Bart